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ПРЕДИСЛОВИЕ 


В этой книге я представил несколько репрезентативных методов машинного 
обучения и попытался по возможности просто изложить их суть. Ее предполагае- 
мая аудитория - те, кто только начинает знакомство с машинным обучением 
и уже владеет математикой на уровне первых курсов университета. Но если вы не 
дружите с математикой, то можете ознакомиться с разъяснениями в конце каж- 
ДоЙ главы и примерно понять, какие задачи решаются с помощью этих методов. 

Особенность данной книги в том, что в начале каждой главы ставится задача, 
а затем постепенно объясняются методы машинного обучения, необходимые ДлЯ 
ее решения. В таблице ниже перечислены задачи и методы, которые будут рассмат- 
риваться в каждой главе. 


Глава Задача Метод 

1 Прогноз количества участников | Линейная регрессия 
мероприятия 

2 Определение вероятности Логистическая регрессия, решающее дерево 
заболевания диабетом 

З Оценка результатов обучения Метод проверки на резервированных данных, 

перекрестная проверка 
4 Сортировка винограда Сверточная нейронная сеть 
5 Определение вероятности Ансамблевые методы 


заболевания диабетом (повтор) 


6 Рекомендация события Кластерный анализ, матричное разложение 


В каждой главе будет предложено лишь введение в тот или ИНОЙ метод. Если 
вы хотите применить его на практике для решения какой-либо задачи, я советую 
обратиться к учебникам, которые указаны в списке рекомендованной литературы 
в конце книги. 

Наконец, я благодарю всех сотрудников издательства Отта за возможность 
написать эту книгу. Я также благодарен г-же Ватари Макана и всем сотрудникам 
Уильтэ, которые превратили мою рукопись в веселую манту. 


Июль 2018 года, 
Араки Масахиро 
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ПРОЛОГ 


ПОГОВОРИМ 
О МАШИННОМ 
ОБУНЕНИН 


АШИННОЕ ОБУЧЕНИЕ? 


В одном 


университете ‚ 


ХМ... НЕПЛОХО БЫ 
НАИТИ Ц ЭТО, 


Ю НА КОМПРОМИС 
ЦАТИ Я НЕ ХОЧУ, 


ПРОФРЕССОР 
НАМНГОЭ? 


НАА.., 
ТАК ТОЖЕ НЕЛЬЗЯ 


„ТАКОЕ! КНЁХАРА-КУН, 

ЧТО СЛУЧИЛОСЬ? 
ДДЕНО ТЕБЯ 

НЕ ВИДЕЛА! 


- А, САЯКА- 
СЭМПАЙИ 


- СЭМПАИ, ТУТ ЕСТЬ КТО-НИБУДЬ ЕЩЕ? 
НАДО ПОГОВОРИТЬ 
С ПРОЗРЕССОРОМ НАМИГО-З... 


Киёхара Кадзума 
Вот уже год как работает в городской 
администрации. 

‚ Изучал машинное обучение в университете 
‚ на факультете компьютерных технологий, 
но так ничему толком не выучился. 


—- УВЫ! ТУТ ТОЛЬКО 9! 
СКОЛЬКО РАЗ ТЕБЕ ГОВОРИЛА - 
ВХОДИ В ЛАБОРАТОРИЮ 
тихо! 


Сэмпай - название старших по курсу/классу учеников или студентов. Антоним - слово «кохай», 
которое обозначает младшего по курсу. - Прим. перев. 


ВСЕ ТАКОЙ ЖЕ 
ое | ШУМНЫЙ, БЕСТОЛКО- 
Е , ВЫй, НЕ Слышишь, 


ХОТЬ ТЕПЕРЬ "А ^ № й 
КЕ ь НТО ТЕБЕ ГОВОРЯТ, 
И НАШЕЛ РАБОТУ... : = © © И ПОТОМ 


Мияно Саяка 


'  Сэмпай Киёхары. а . САЯкА-СэЭМпПАи 
‚ Учится на втором курсе —_ ВЫ КАК ОБЫЧНО. 
‚ магистратуры. - 


ЧТО КАК ОБЫЧНО, НЕТ, ЭТО НЕ ТАК. 
КАК ОБЫЧНО Д КОГДА ВЕРНЕТСЯ 


ПРИДИРАЮСЬ.., ПРОЗРЕССОР НАМИГОЭ? 


КАК ОБЫННО, 
МИЛАЯ... 


ОН ВМЕСТЕ С ДРУГИМИ 
ЛАБОРАНТАМИ В КОМАНДИРОВКЕ 
ЗА ГРАНИЦЕЙ, РАНЬШЕ, ЧЕМ 
НЕРЕЗ ДВА МЕСЯЦА, 

НЕ ВЕРНЕТСЯ, 


БЛИН, МНЕ ЭТО 
НИКАК НЕ ПОДХОДИТ! 


КИЁХАРД, ТЫ ЖЕ РАБОТДЕШЬ У СЕБЯ 
В МЕСТНОЙ АДМИНИСТРАЦИИ. 

ТЫ ЖЕ ГОВОРИЛ: “ХОЧУ СПОКОЙНО 
РАБОТАТЬ ДОМА М ЖИТЬ В СВОЕ 
УДОВОЛЬСТЕНЕ". ЗАЧЕМ ТЕБЕ 
МАШИННОЕ ОБУЧЕНИЕ? 


Я ХОТЕЛ ПОПРОСИТЬ 
ПРОФЕССОРА НАМИГОЗ 
РАССКАЗАТЬ МНЕ ПРО 

МАШИННОЕ ОБУЧЕННЕ.., 


МАШИННОЕ 
ОБУЧЕНИЕР 


У ТЕБЯ ЧТО-ТО 
СТРЯСЛОСЬ? МОЖЕТ, 
МНЕ РАССКАЖЕШЬ? 


ПРОЛОГ. ПОГОВОРИМ О МАШИННОМ ОБУЧЕНИИ 


У НАС ЕСТЬ 
КОНСУЛЬТАНТ, КОТОРЫЙ ПОРУЧИЛ 
МНЕ ПОРАБОТАТЬ С ЕГО НУ-ПРОГРАМ- 
МОЙ, ПРОГНОЗИРУЮЩЕЙ КОЛИЧЕСТВО 
ГОСТЕЙ НА ПУБЛИННЫХ МЕРОПРНЯТИЯХ 
НАШЕЙ АДМИНИСТРАЦИИ. 
` ЭТОТ КОНСУЛЬТАНТ - 


„ПРИМЕРНО ТАКОЙ ТИП... 
Я ПОДСЧИТАЛ КОЛИЧЕСТВО ГОСТЕЙ 
НЕРЕЗ ИИ-ПРОГРАММУ, КОТОРУЮ 
ОН РАЗРАБОТАА... 


’ суда по прогнозам ии 
КОЛННЕСТВО ГОСТЕЙ 


Е: : 
УМЕНЬШИТСЯ! СПАСИБО! 


Я ДОЛОЖИЛ ОБ ЭТОМ \ 
ОТВЕТСТВЕННОМУ 
ЗА РЕКЛАМУ, НО ТОТ 
НЕ ОБРАТИЛ 
внимАННЯ... 


ПОЭТОМУ Я ПОДУМАЛ, НТО 
ЕСЛИ БЫ СМОГ, ИСПОЛЬЗУЯ 
ДАННЫЕ ЗА ДЕСЯТЬ ЛЕТ, 
СДЕЛАТЬ ПРОГНОЗ 
ПРИ ПОМОЩИ МАШИННОГО 


ЮБУЧЕННЯ, ТО У МЕНЯ 


К МОМЕНТУ НАСТУПЛЕНИЯ 
сингУлаРНОСТИ ПОЯВИТСЯ 
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, МОЗГ, 

СРАВНЫМЫЙ С ЧЕЛОВЕЧЕСКИМ 
ИЛИ ДАЖЕ ПРЕВОСХОДЯЩИЦ ЕГО, 
КОТОРЫЙ САЕЛДЕТ ВСЮ ЧЕЛОВЕ- 


ЦНРРЫ БЫЛИ ПОДОЗРН- 
ТЕЛЬНЫМИ, И КОГДА 
Я ИХ ПРОВЕРЦА... 


„ТО УВИДЕЛ, 
НТО КОЛИНЕСТВО ГОСТЕЙ 
ДВА ПОСЛЕДНИХ ГОДА 
СНИЖДЕТСЯ ПО ПРЯМОШ! 


ПОЭТОМУ Я ПРИШЕЛ 
К ПРОФРЕССОРУ 
НАМИГОЗЭ, ЧТОБЫ ОН 
РАССКАЗАЛ МНЕ 
О МАШИННОМ 
ОБУЧЕННИ.., 


ПОЛУЧИЛОСЬ БЫ ЕГО 
УБЕДАТЬ. 


НО Я 
НИЧЕГО УМЕЮ... 


ПРОЛОГ. ПОГОВОРИМ О МАШИННОМ ОБУЧЕНИИ 


ИИ; р 
ии: 74 
74 


НУ что, 
КИЁХАРА-КУН.. У 27 


ТЫ В ПРОШЛОМ ГОДУ ЗАКОН- 
НИЛ УЧИТЬСЯ, А ДАЖЕ ТАКОГО 
НЕ МОЖЕШЬ СДЕЛАТЬ? 


— 


НО РАЗВЕ 
` ` ЭТО НЕ ВХОДИТ В ТВОЧ 
Г | РАБОЧИЕ ОБЯЗАННОСТИ? 


НУ... НЕ СОВСЕМ... 
ЕСЛИ БЫ ЭТОТ КОНСУЛЬТАНТ НЕ НАЧАЛ 
ВСЕХ ДЕРГАТЬ, ВСЕ БЫ ОБОШЛОСЬ... 


НУ А КОГДА ПРИШЛОСЬ 


ВЗЯтТЬсЯ ЗА ДЕЛО, 
ТО Я СРАЗУ ЖЕ ПОМЧАЛСЯ 
СЮДА... 


| 
АГА, УЗНАЮ СТУДЕНТА - НУ ЛАРНО: 


КНЁХАРУ-КУНА. 


Я РАССКАЖУ ТЕБЕ 
ПРО МАШИННОЕ ОБУЧЕНИЕ! 


АА НЕ СТЕСНЯЙСЯ ТЫ, НЕ МОГУ 
ОТПУСТИТЬ ПРОСТО ТАК ЧЕЛОВЕКА, 
КОТОРЫЙ НИЧЕГО О МАШИННОМ 
ОБУЧЕНИИ НЕ ЗНДЕТ! 
СЕГОДНЯ КОНФЕТЫ 
БУДУТ ВМЕСТО 
ОПЛАТЫ! 


Я и САМ ЧТО-НИБУДЬ 


НЕТ-НЕТ, СЭМПАИ, ПРИДУМАЮ, 


ВЫ ЖЕ ТАК ЗАНЯТЬ! 


НЕТ-НЕТ-НЕТ!/ НЕ СТОИТ и НЕЗАЧЕМ! 
Я МОГУ ПОСТАРАТЬСЯ ПРОИЗВЕСТИ НА НЕЕ 
ХОРОШЕЕ ВПЕЧАТЛЕНИЕ, НО БЫТЬ С НЕЙ 
ТОЛЬКО ВАВОЕМ!! ДА ОНА Ж НЕДООЦЕНИВАДЕТ 


МОЮ ГЛУПОСТЬ!!! ТАК НЕЛЬЗЯ! 
НЕ СЛУШАЙ, ЧТО ОНА ГОВОРИТ! 


[9 


№ 


КСТАТИ, САЯКА-СЭМПАЙ, 
А ПОЧЕМУ ВЫ 
НЕ В КОМАНДИРОВКЕ 
С УЧИТЕЛЕМ НАМИГОЭР НИ ВО 


НЕ ДОЛЖНЫ ХОДИТЬ 
НА СОБЕСЕДОВАНИЯ? 


Я ПРОСТО НЕ МОГУ ПРЕПОДАВАТЬ 
ТЕМ, КТО ГОВОРИТ ТАКИЕ ВЕЩИ! 


г у : | \ “У 
ОСТИТЕ! БУДЬТЕ Я Е---------- Е = 
СНИСХОДИТЕЛЬН НЕ 71 


НУ.. ЭТО КОГДА ЦИ АНАЛИЗИРУЕТ 
БОЛЬШОЙ ОБЪЕМ ДАННЫХ 
И ДАЕТ ОТВЕТ? 


ПРЕЖДЕ ВСЕГО, КИЁХАРА-КУН, 
ДАВАИ ПРОВЕРИМ, ЧТО ТЫ ЗНАЕШЬ 
О МАШИННОМ ОБУЧЕННИ. 


ПОСТРОЕНИЕ НА ОСНОВАНИИ БОЛЬШОГО ОБЪЕМА ДАННЫ 
ДЕЛИ, КОТОРАЯ МОЖЕТ ОЦЕНИВАТЬ И ДЕЛАТЬ ПРОГН 


Оценка 


^^ 
Прогноз «-—— ( Большой объем данных )—— Анализ 


Машинное обучение 


ТАКИМ ОБРАЗОМ, В ЦЕНТРЕ ТЕХНОЛОГИН 
НАХОДИТСЯ ЦИ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ. 


СЕЙНАС 
ВСЕ РЕШДЕТСЯ ПРИ ПОМОЩИ 
ИСКУССТВЕННОГО ИНТЕЛЛЕКТА! 
КАК В СКАЗКУ ПОПАЛ, 


ЦИ СЕЙЧАС ДОСТАТОЧНО РАСПРОСТРАНЕН! БОЛЕЕ ТОГО, “МАШИННОЕ ОБУЧЕНИЕ” 
В ЦЕЛОМ СЧИТАЕТСЯ, ЧТО ОН ВСКОРЕ ЗАМЕНИТ |: ТЕСНО СВЯЗАНО С ТЕХНОЛОГИЕЙ ОРАТА 
ЛЮДЕЙ ПРИ ВЫПОЛНЕНИИ НЕКОТОРЫХ | мМмММе СДОБЫЧА ДАННЫХ), КОТОРАЯ 
ПРОСТЫХ ИНТЕЛЛЕКТУАЛЬНЫХ ЗАДАНИЙ, ПОЗВОЛЯЕТ ПОЛУЧИТЬ НУЖНЫЕ ДАННЫЕ 
НО В МНЫХ СИТУАЦИЯХ ОН ПОМОЖЕТ В РЕЗУЛЬТАТЕ АНАЛИЗА ОГРОМНОГО, 
РАСШИРИТЬ ВОЗМОЖНОСТИ НЕПРЕДСТАВИМОГО ДЛЯ ЧЕЛОВЕЧЕ- 
НЕЛОВЕЧЕСКОГО УМА, _ СКОГО РАЗУМА ОБЪЕМА ДАННЫХ, 


Рафа тшттод - метод 

обнаружения скрытых 

ел. паттернов в огромном 
 лобъеме данных 

при помощи статистики 

и математических 

методов. 


ПОСКОЛЬКУ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ РЕШДЕТСЯ 
ОГРОМНОЕ КОЛИЧЕСТВО ЗАДАЧ, ЕГО ОБОЗРЕТЬ В ЦЕЛОМ 
ТРУДНО, ОДНАКО МЕТОДЫ ЛЕГКО РАЗДЕЛИТЬ ПРИМЕРНО 

НА ТРИ ГРУППЫ; ОБУЧЕНИЕ С УЧИТЕЛЕМ; ПРОМЕЖУТОННЫЕ 

СПОСОБЫ; ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ. 


В Глава 3 «Оценка» Глава 6 «Кластерный 


ДУ 
(< ас анализ, разложение 
: ( Машинное обучение ) матрицы» 


Глава1 «Регрессия» 
Глава 2 «Логистическая 
регрессия, решающее у 


У 
ерево» ^\ 
вы (Обучение с учителем Промежуточные ( Обучение Без учителя | 
Глава 4 «Глубокое р 
способы 

обучение» 
Глава 5 «Ансамблевые Возраст | Пол | Время | Результат победа Длина | Ширина | Высота 
методы» 35 м | 5 Да < у 15 6 16 

24 м г Да 24 8 19 

награда 
22 ж 21 Нет 32 7 18 


НУ... НЕ СОВСЕМ. ЭТО МЕТОД 

НАЧНЕМ С ОБУЧЕНИЯ ОБУЧЕНИЯ, КОТОРЫЙ НАХОДИТ 
С УЧИТЕЛЕМ. СПОСОБ РЕШЕНИЯ ЗАДАЧИ НА 
о ОСНОВАНИИ ОГРОМНОГО 
ПИРОЖКИ _ КОЛИНЕСТВА ЗАГРУЖЕННЫХ 
Е : ПАР “ЗАДАНА - РЕШЕНУЦЕ". 


хх 


ЭТО КАК 
НАШИ УРОКИ? 


НАПРИМЕР, КНЁХАРА, ТВОЯ ЗАДАНА 

ОПРЕДЕЛЕНИЯ КОЛИЧЕСТВА ГОСТЕЙ, 
КОТОРЫЕ ПРИДУТ НА МЕРОПРИЯТИЕ, 
НА ОСНОВАНИИ ИМЕЮЩИХСЯ ДАННЫХ 
НАЗЫВАЕТСЯ ЗАДАЧЕЙ РЕГРЕССИИ, 


А ЕСЛИ ТЫ ХОЧЕШЬ НАИТИ ОТВЕТ 
НА ВОПРОС, КУПЯТ ЛИ КАКОЙ-НИБУДЬ 
ТОВАР, ТО ЭТО ЗАДАНА 
КЛАССИЗРИКАЦИИ. 


Данные для задачи регрессии Данные для задачи классификации 


Кол-во | Время ходьбы | Возраст | Арендная Возраст Время Купит? 
комнат | от станции, мин | дома плата 35 16 


15 6 48 000 
2 2 60 000 
20 25 50000 


24 9 
22 21 


ТО ЕСТЬ У НАС ДВЕ ЗАДАЧИ - 
РЕГРЕССИЯ И КЛАССИФРИКАЦНИЯ, 


НУ, ЕСЛИ ТЫ Я ЧАСТО СЛЬШУ 

НЕ ВСЕ ПОНЯЛ, О ОЕЕР -ЕДРММЕ, 

ТО ЭТО ЧТО ЭТО ТАКОЕ? 
НОРМАЛЬНО, 


ЗАДАНА ОБУЧЕНИЯ СОСТОИТ 
В ТОМ, ЧТОБЫ СРОРМИРОВАТЬ 
МОДЕЛЬ НА ОСНОВАНИИ ДАННЫХ 
С ПРАВИЛЬНЫМИ ОТВЕТАМИ 
НА ЗАДАЧИ И ОТКОРРЕКТЧРОВАТЬ 
ЕЕ ПАРАМЕТРЫ ДЛЯ ПОЛУЧЕНИЯ 
ЖЕЛАЕМОГО РЕЗУЛЬТАТА. 


ГЛУБОКОЕ ОБУЧЕННЕ. 
В ОСНОВНОМ ИСПОЛЬЗУЕТСЯ, 
КОГДА МЫ ГОВОРИМ 
ОБ ОБУЧЕНИИ 
С УЧИТЕЛЕМ. 


СКОЛЬКО всяких 
РАЗНЫХ НОВЫХ СЛОВ! ПРОЛОГ. ПОГОВОРИМ О МАШИННОМ ОБУЧЕНИИ 


ЗАТЕМ НДУТ ПРОМЕЖУТОЧНЫЕ 
МЕТОДЫ. КНЁХАРА-КУН, ТЫ СЛЬШАЛ 
КОГДА-НИБУДЬ НОВОСТИ О ТОМ, 
НТО ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ положительное 
ОБЫГРАЛ ЧЕЛОВЕКА В ШАХМАТЫ а = = подкрепление 


ини 
НулуНуНуЗУНуУуНУЯ 


Проигрыш - 


АГА, ЭТО БЫЛО ВОСХИТИТЕЛЬНО. мм Г полетление 
ато иш ЭТОГО НЕ сножет ГЕТЕ ТЕЗИЕЗАОЕИН 


После каждого хода неизвестно, 
какой следующий ход лучше сделать* 


МЕТОД, ИСПОЛЬЗУЕМЫЙ 
ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ 
ДЛЯ ИГРЫ В ГО ИЛИ ШАХМАТЫ, 

НАЗЫВДЕТСЯ ОБУЧЕНИЕ 


С ПОДКРЕПЛЕННИЕМ. ОБУЧЕНИЕ С ПОДКРЕПЛЕННЕМ 
НЕ ДДЕТ ОТВЕТА НА ВОПРОС, 

КАКОЙ ХОД ЛУЧШЕ СДЕЛАТЬ, 

НО ВМЕСТО ЭТОГО ВЫДАЕТ 
ПОДКРЕПЛЕНИЕ В ЗАВИСИМОСТИ 

ОТ ПОБЕДЫ ИЛИ ПОРАЖЕННЯ, 


ЛЮДЯМ ТОЖЕ _ НА ОСНОВАНИИ ПОДКРЕПЛЕНИЯ 
МОЖНО ДАВАТЬ __ ОПРЕДЕЛЯЕТСЯ ОПТИМАЛЬНЫЙ ПОРЯДОК 
ПОДКРЕПЛЕНИЕ. . ДЕЙСТВИЙ, ТАК ОБУЧАЮТ РОБОТОВ 

ДЛЯ ВОЖДЕНИЯ АВТОМОБИЛЕН. 


© пб ОГО... КАК УДОБНО. 
ДА, ЭТИ СЛАДОСТИ - ВОИСТИНУ ХХТ ВЕК! 


КАК РАЗ ПОДКРЕПЛЕНИЕ 


ДЛЯ МЕНЯ. а 


В СТОРОНУ! 


* Приведенная таблица - расстановка для игры в сёги, японские шахматы. - Прим. перев. 


ЧТО ЖЕ КАСАЕТСЯ ОБУЧЕНИЯ 
БЕЗ УЧИТЕЛЯ, ТО ЖЕЛАЕМОГО ОТВЕТА 
НА ВОПРОСЫ СРЕДИ ДАННЫХ НЕТ. 


ОБучение Без учителя 


Неразмеченные данные 


Длина | Ширина | Высота 
15 
24 
32 


ОНИ ИСПОЛЬЗУЮТСЯ, НАПРИМЕР, 

ДЛЯ РЕКОМЕНДАЦИИ ТОВАРОВ ПРИ ПОКУПКЕ 
В ИНТЕРНЕТ-МАГАЗИНАХ ИЛИ ПРИ ПОНСКЕ 
СТРАННОСТЕЙ В ИНФРОРМАЦИИ 
О ДЕЙСТВИЯХ МЕХАНИЗМОВ, 


ПОКА ЧТО, НАДЕЮСЬ, 
ТЫ ВСЕ ПОНЯЛ ОТНОСИТЕЛЬНО 
МАШИННОГО ОБУЧЕНИЯ? 


ПРОЛОГ. ПОГОВОРИМ О МАШИННОМ ОБУЧЕНИИ 


А КАК ТОГДА 
ПРОХОДИТ ОБУЧЕНИЕ? 


НУ, КАК ОБЫЧНО, 

ЦЕЛЬ СИСТЕМ БЕЗ УЧИТЕЛЯ - 
ЭТО ОБНАРУЖИТЬ В БОЛЬШОМ 
ОБЪЕМЕ ДАННЫХ ЗНАНИЯ, 
КОТОРЫЕ МОГУТ ПРИГОДИТЬСЯ 
НЕЛОВЕКУ,. 


История покупок 


ЭТО УЖЕ 
ВОСЬМОиН. 


В кабинете у Саяка (1) 


Саяка и старшеклассница Ай 


Давно не виделись, Ай-тян. С тех пор как мы были у дедушки, 
да? 


Рассказывала младшему товарищу про машинное обучение. 
Он хоть и учился у нас, но, боюсь, очень мало что понял... Ай- 
тян, ты же хочешь учиться в математическом классе, может, 
тоже зайдешь послушать? 


Там используются математические модели, но это все делается 
компьютерами. А основы этих моделей может понять и стар- 
шеклассник. 


Конечно, поймешь. Мы начнем с регрессии. Приходи послу- 
шать! 


ПРОЛОГ. ПОГОВОРИМ О МАШИННОМ ОБУЧЕНИИ 


ГЛАВА 1 


НТО ТАКОЕ 
РЕГРЕССИЯ 


ДЛЯ НАНАЛА 8 КАЧЕСТВЕ ПРИМЕРА 

ВОЗЬМЕЛ\ СИТУАЦИЮ, КОГАД НАДО 

ооо ПОДСЧИТАТЬ КОЛИЧЕСТВО ГОСТЕЙ 

О РЕГРЕССИИ, НА ПИАР-МЕРОПРИЯТЦИ, КОТОРОЕ 
ОРГАНИЗОВЫВДЕТ ГОРОД. 


НА НЕМ БУДЕТ ПОДАВАТЬСЯ СОК, 
ВЫЖАТЫЬЙ ИЗ МЕСТНЫХ <РРУКТОВ, 
ПОЭТОМУ НАДО КАК МОЖНО ТОЧНЕЕ 
ПОДСЧИТАТЬ КОЛИЧЕСТВО 
УЧАСТНИКОВ. 


ДА. А ЕСЛИ МЫ ВЗГЛЯнНЕМ 
НА ГРАЗРИК УЧАСТНИКОВ 
С 13-ГО ГОДАР 


Количество участников 


70 
60 


Год участия 


16 
—- Участники 


Год участия 


и 13 


—+_ Участники 


ЭТОТ ГРАЗРИК ПОКАЗЫВАЕТ 

ИЗМЕНЕНИЕ ЧИСЛА УЧАСТНИКОВ 
ЗА ТРИ ГОДА. ЕСЛИ МЫ 

ПРЕДСКАЖЕМ КОЛИЧЕСТВО 

УЧАСТНИКОВ НА ЕГО ОСНОВЕ, 
НТО ПОЛУНИТСЯР в ДОЛГОСРОЧНОЙ 
Зд ТРИ ГОДА ПЕРСПЕКТИВЕ ВИДНА 
ДЕМОНСТРИРУЕТСА ТЕНДЕНЦИЯ К УВЕЛИНЕНИЮ 


ТЕНДЕНЦИЯ К СНИЖЕНИЮ, ЧИСЛА УЧАСТННКОВ, 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


ИМЕННО ТАК! В ЗАВИСИМОСТИ 
ОТ ТОГО, КАКОЙ ПЕРИОД МЫ 
ВЗЯЛИ, ТЕНДЕНЦИИ АБСОЛЮТНО / 
ПРОТИВОПОЛОЖНЬЫЕ. 


И ЭТО ТОТ СПОСОБ, КОТОРЫЙ 
ИСПОЛЬЗОВАЛ КОНСУЛЬТАНТ? 


ДАЖЕ ЕСЛИ ТЕНДЕНЦИЯ 
Ц ПРАВИЛЬНАЯ, ГРАФРИК 
НЕОБЯЗАТЕЛЬНО БУДЕТ 
ПОХОД, 


что ж, киЁХАРА, КАК МЫ 
ТЕПЕРЬ БУДЕМ ПРЕДСКАЗЫВАТЬ 
КОЛИНЕСТВО ГОСТЕЙР 


НУ... Я ДУМАЮ, ВЛИЯНИЕ ОКАЗЫВАЮТ 
ПОГОДА, ТЕМПЕРАТУРА, В ОСОБЕННОСТИ 


КОЛИЧЕСТВО ОСАДКОВ В СЕЗОН ДОЖДЕЙ» 


ПУСТЬ У НАС БУДЕТ ОДНА НЕЗАВИСИМАЯ 
ПЕРЕМЕННАЯ, РАССМОТРИМ ВЛИЯНИЕ 
ТЕМПЕРАТУРЫ В ДЕНЬ МЕРОПРИЯТИЯ 

НА КОЛИЧЕСТВО ГОСТЕЦ. 


700 
600 
500 
400 
300 
200 
100 

0 


НА ЭТОМ ГРАЗРИКЕ 
ГОРИЗОНТАЛЬНАЯ ОСЬ - НЕЗАВИСИМАЯ 
ПЕРЕМЕННАЯ (ПОГОДА), Д ВЕРТИКАЛЬНАЯ - 
КОЛИЧЕСТВО УЧАСТНИКОВ (ЗАВИСИМАЯ 
ПЕРЕМЕННАЯ), ОТМЕТИМ ТОЧКИ, РАВНЫЕ 
КОЛИНЕСТВУ УЧАСТНИКОВ, М ПРОВЕДЕМ 
ПО НИМ ПРЯМУЮ, 


ЭТО НЕВОЗМОЖНО? 


А ТЕПЕРЬ ПОПРОБУЕМ ВЫБРАТЬ МЕТОД 
ПРЕДСКАЗАНИЯ В ЗАВИСИМОСТИ ОТ <РАКТОРОВ, 
ТЕ РЕЗУЛЬТАТЫ, КОТОРЫЕ МЫ ХОТИМ 


СПРОГНОЗИРОВАТЬ, НАЗЫВАЮТСЯ ЗАВИСИМЫМИ 


ПЕРЕМЕННЫМИ, А <РАКТОРЫ, ВЛИЯЮЩИЕ 
НА РЕЗУЛЬТАТ, - НЕЗАВИСИМЫМИ 
ПЕРЕМЕННЫМИ. 


КАК-ТО ТАК. 
ПО ВОЗМОЖНОСТИ ПРОВОДИМ 
ЕЕ НЕДАЛЕКО ОТ ВСЕХ ТОНЕК. 
КОГДА МЫ ПРОВОДИМ ЛИНИЮ, 
ОНА ВЫГЛЯДИТ ТАК; 


ИТАК, ОБОЗНАЧИМ НАКЛОН ГРАРИКА У, 
САВИГ ГРАЗРИКА ОТНОСИТЕЛЬНО 
ВЕРТИКАЛЬНОЙ ОСИ - И’, ТЕМПЕРАТУРУ ЗА Х, 
А КОЛИЧЕСТВО УЧАСТНИКОВ - ЗА у 


— И ПОЛУЧИМ ЭТУ ЗРОРМУЛУ, 


ЕСЛИ ТЕМПЕРАТУРА РАСТЕТ, : СЛОЖНОСТЬ В ТОМ, ЧТО СРЕДИ | 
ТО И КОЛИНЕСТВО УЧАСТНИКОВ : НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ ЕСТЬ ТАКЦЕ, 
РАСТЕТ, А ЭТО НЕПОХОЖЕ : КОТОРЫЕ ОКАЗЫВАЮТ ВЛИЯНИЕ 
НА ПРАВДУ, : 11: НА ЗАВИСИМЫЕ ПЕРЕМЕННЫЕ, 
: : Д ЕСТЬ И ТАКИЕ, ВЛИЯНИЕ КОТОРЫХ 
НЕВЕЛИКО, 


л / 
ВИДИМО, НЕЗАВИСИМЫХ В ее 
ПЕРЕМЕННЫХ НЕСКОЛЬКО. [© чи 
с - 


[А 


ЧТОБЫ ПРОСТО СМОДЕЛИРОВАТЬ ТАКНЕ УСЛОВНЯ, 

НЕОБХОДИМ СПОСОБ, КОТОРЫЙ БУДЕТ УПОРЯДОНИВАТЬ 

ЗАВИСИМЫЕ ПЕРЕМЕННЫЕ В ЗАВИСИМОСТИ ОТ УЧИТЫ- 
ВДЕМОГО ВЕСА НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ, ЭТ 


ЛИНЕЙНАЯ РЕГРЕССИЯ. 
Температура х вес учитывание 
>. Зависимая 


о. переменная 
Влажность Х вес цена 7 


Что такое линейная регрессия? 


АГА! ВОТ И РЕГРЕССИЯ! 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


ЕСЛИ НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ ДВЕ, ОЧЕНЬ ПОХОЖЕ 
ТО ОБОЗНАЧИМ ИХ кАК Хх Их,, НА НЕДАВНЮЮ <РОРМУЛУ, 
ИХ ВЕС КАК \/| Ц и’) СООТВЕТСТВЕННО, 
А ЦХ ВЗВЕШЕННАЯ СУММА ВМЕСТЕ 
С ПОСТОЯННОЙ СОСТАВЛЯЮЩЕЙ и 
ЗАПИСЫВДЕТСЯ... 


Я МЫ ЖЕ СТРОИЛИ 
„ВОТ ТАК. ДВУМЕРНЫЙ ГРАФРИКР 


МОЖНО ПОСТРОИТЬ ТРЕХМЕРНЫЙ 
ГРАЗРИК, КАК НА КАРТИНКЕ, 
Ц СПРОГНОЗНРОВАТЬ КОЛИЧЕСТВО 
УЧАСТНИКОВ. ПОЛУЧИТСЯ ТАКАЯ 
ВОТ ПОВЕРХНОСТЬ, 


ПЕРЕМЕННОЙ БУДЕТ УВЕЛИНИВАТЬСЯ 
КОЛИНЕСТВО ИЗМЕРЕНИЙ? 


ВСЕ ТАК.. ОБОБЩАЕМ: ЕСЛИ 
В ДАННЫХ СУЩЕСТВУЕТ 
Я НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ, 

ТО ТОЧКИ НА ГРАЗРИКЕ БУДУТ 
РАСПОЛАГАТЬСЯ В (4+ 1)-МЕРНОМ 
ПРОСТРАНСТВЕ, И ПОЭТОМУ НАМ НАДО 

РЕШИТЬ ЗАДАЧУ НАХОЖДЕНИЯ 
Я-МЕРНОЙ ГИПЕРПЛОСКОСТИ, 


ЧТОР 
ТО ЕСТЬ ЕСЛИ НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ 
БУДЕТ 10, ТО НАМ НУЖНО БУДЕТ НАЙТИ 
ДЕСЯТИМЕРНУЮ ГИПЕРПЛОСКОСТЬ? 
А ЭТО ВООБЩЕ ВОЗМОЖНО? 


ДА! ПРИДЕТСЯ ПОПРОСИТЬ 
ПОМОЩИ У МАТЕМАТИКИ! 


1.3. НАХОДИМ ФУНКЦИЮ ЛИНЕЙНОЙ РЕГРЕССИИ 


@ № 
Шаг 1 

Пусть у нас есть 4 независимых переменных. Тогда обозначим 4-мерный столбец- 

вектор х. В соответствии с этим вес, отличный от постоянной \/%, также будет обо- 

значен 4-мерным вектором-столбцом и, и уравнение гиперплоскости примет такой 

вид: 

У= жтх + У (1.1) 


\ где Т - обозначение транспонирования. 


(ль 


До этого мы обозначили за у величину взвешенной суммы независимых переменных, 
а теперь обозначим так величину зависимых переменных в данных для обучения. 
Взвешенную сумму независимых переменных мы обозначим как ((х). Значок над бук- 
вой означает, что мы не можем гарантировать правильность полученных данных. 
Таким образом уравнение (1.1) примет вид (1.2): 


&(х) = жТх + и. (1.2) 
№. Ра 


Тот факт, что функция линейной регрессии не слишком отличается от 
использованных данных, означает, что величина линейной функции 
6(х), куда входят независимые переменные х, также мало отличается 
от величины зависимой переменной у. Цель в том, чтобы сделать эту 
разницу как можно меньше. Однако если эта разница проявляется в 
наборе данных, то случаи, где величина зависимой переменной выше 
величины линейной функции, накладываются на те, где величина за- 
висимой переменной ниже величины линейной функции, и они ком- 


пенсируют друг друга. 


Для определения «отклонения» линейной функции от имеющихся данных возводим 
в квадрат разницу между линейной функцией ((^) и зависимой переменной у; т.е. на- 
ходим квадрат ошибки. Уменьшение квадрата ошибки путем корректировки веса 
линейной функции называется обучением по методу наименьших квадратов. 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


Таким образом, добавив к х в уравнении (1.2) 0-мерность и определив его величину 
как равную 1, а также добавив и к 0-мерному т», получим, что функция регрессии 
будет записываться как внутреннее произведение (4 + 1)-мерного вектора (1.3). 


|9 = их. р. 


(пы | 
Оценим коэффициенты М! этого уравнения, используя обучающие данные {(х1, у1), ... 
(х„› у„)}. Постараемся максимально возможно уменьшить разницу между величина- 
ми зависимой переменной уи функции ((х), рассчитанной по уравнению 1.3. Ошиб- 


ка определяется значением коэффициентов и в уравнении (1.3) обозначив ее Е(и), 
получим следующее уравнение: 


Е(и) = х (у-&(х)), (1.4) 
- х (у-№1х). (1.5) 
\. 1=1 в 


шаг. — 
Чтобы избавиться от трудоемких вычислений суммы, представим независимые пере- 
менные матрицами, а зависимые - векторами. Обозначим матрицу, имеющую и пози- 
ций по вертикали, которая получилась путем транспонирования независимой пере- 
менной х 4-мерного вектора-столбца как Х, у - вектор-столбец величин независимой 
переменной у, а м - вектор-столбец коэффициентов. 

В итоге отклонение примет следующий вид: 


Е(м) = (у- Хи) (у — Хи). (1.6) 


Чтобы минимизировать отклонение, нужно найти такие величины коэффициентов 
\” при которых производная функции ошибки равняется 0, то есть: 


ХКу- Хи = 0, (1.7) 
= (ХТХ) ХТ, (1.8) 
где А! - матрица, обратная матрице А. 

р. 


Таким образом, мы можем аналитически найти по обучающим дан- 
ным веса и при помощи минимизации суммы квадратов ошибки. При 
подстановке ч в уравнение (1.3) получится функция линейной регрес- 
сии С(х). 


1.3. НАХОДИМ ФУНКЦИЮ ЛИНЕЙНОЙ РЕГРЕССИИ 


Е ЕСЛИ Я ЗНАЮ НЧИСЛЕННЫИ ВЕС, 
| ТО ОН МОЖЕТ БЫТЬ ПРОСТО 
< ПОДСТАВЛЕН В ЭТУ <РОРМУЛУ? 


ЕСЛИ КОЭРФРИЦИЕНТЫ 
ЛИНЕЙНЫЕ, ТО ВЕСА МОГУТ 
БЫТЬ РАССЧИТАНЫ ТАКИМ ЖЕ 


600 
500 


ОБРАЗОМ, ДАЖЕ ЕСЛИ ЭТО 400 
УРАВНЕНИЯ ВЫСОКОГО 300 


ПОРЯДКА. ТАК МОЖНО 200 
ПРОВОДИТЬ ОБУЧЕНИЕ ПРИ 
ПОМОЩИ САМЫХ СЛОЖНЫХ 
УРАВНЕНИЙ РЕГРЕССНИ, 


НЕ СОВСЕМ ТАК. В ЭТОМ ЗРОРМУЛЕ ДАЖЕ 
ПРИ НЕБОЛЬШОМ ИЗМЕНЕНИИ ДАННЫХ НА ВХОДЕ 
РЕЗУЛЬТАТЫ НА ВЫХОДЕ МОГУТ СИЛЬНО ОТЛИЧАТЬСЯ, 
хх И НЕЛЬЗЯ БУДЕТ ПОЛУЧИТЬ ХОРОШИЙ РЕЗУЛЬТАТ ПРИ 
) ИСПОЛЬЗОВАНИИ ДАННЫХ, ОТЛИННЫХ ОТ ОБУЧАЮЩИХ, 


ОБЪЯСНИМОСТЬ 
СЛОЖНОВАТО, ВАЖНЕЕ 


А КАК САЕЛАТЬ - ' Е ТОННОСТИ? 
ХОРОШНИИ ПРОГНОЗ: — НО, ВПРОЧЕМ, 


ЕСТЬ М ДРУГАЯ ТОЧКА \ 
ЗРЕНИЯ НА ВЕС, В СЛУЧАЯХ, 
КОГДА ПРАВИЛЬНОСТЬ 
ПРОГНОЗА ВАЖНЕЕ, ЧЕМ 
ОБЪЯСНИМОСТЬ РЕЗУЛЬТА- 
ТОВ ОБУЧЕННЯ, 


и „Я 

ЕСЛИ НЕБОЛЬШОЕ ИЗМЕНЕНИЕ 
КАКОГО-ЛИБО ПАРАМЕТРА НА 
ВХОДЕ ДДЕТ БОЛЬШОЕ ИЗМЕНЕ- 
НИЕ НА ВЫХОДЕ, ЭТО ОЗНАЧАЕТ, 
НТО КОЭЗРФРИЦИЕНТ УРАВНЕНИЯ 
СЛИШКОМ ВЕЛИК, ПОЭТОМУ ЕГО 
НЕОБХОДИМО УМЕНЬШИТЬ. 


ДОПУСТИМ, ВМЕСТО ТОГО ЧТОБЫ ч 
ПРОГНОЗИРОВАТЬ, КАКИЕ ЗРАКТОРЫ ТАК МОЖНО НАИТи 
ПОВЛИЯЮТ НА КАЧЕСТВО ТОВАРА, ТЕ ХАРАКТЕРИСТИКИ, 


НАДО НДИТИ ТЕ, КОТОРЫЕ ВЛИЯЮТ КОТОРЫЕ ДЕЛАЮТ ТОВАР 
НА НЕГО БОЛЬШЕ ВСЕГО, БРАКОВАННЫМ,. 


Пирожок 


Составляющие: 
- мука —*» Что влияет Больше? 


— начинка 


- сахар 


ЕСЛИ ГОВОРИТЬ КОНКРЕТНЕЕ, 
МОЖНО ПОДСТАВИТЬ В КАЧЕСТВЕ 
ВЕСА ПЕРЕМЕННЫХ В ЗРОРМУЛУ 
ЛИНЕЙНОЙ РЕГРЕССЦИ 0 
И ПОСМОТРЕТЬ, ИЗМЕНИТСЯ ЛИ 
КОЛИНЕСТВО ИЗМЕРЕНИЙ, 


ИНЫМИ СЛОВАМИ, СЛЕДУЕТ НАЙТИ СПОСОБ, 
ЧТОБЫ КОЭ<РФРИЦИЕНТ \/ В УРАВНЕНИИ 
ЛИНЕЙНОЙ РЕГРЕССИИ УМЕНЬШИЛСЯ, 


ЕСЛИ ВЕЛИЧИНА ЕГО БОЛЬШАЯ, 
ИЛИ ЖЕ СТАЛ РАВЕН НУЛЮ, 
И ЭТОТ СПОСОБ 
НАЗЫВДЕТСЯ 
РЕГУЛЯРИЗАЦИЕЙ. „ 


ОН НУЖЕН, 


ЧТОБЫ КОЭФРФРИЦИЕНТ 
НЕ БЫЛ СЛИШКОМ БОЛЬШИМ... 


МЕТОД РЕГУЛЯРИЗАЦИИ, 
ПРИ КОТОРОМ МЫ УМЕНЬШАЕМ 
БОЛЬШИЕ КОЭЧРФРИЦИЕНТЫ, 
НАЗЫВДЕТСЯ РИАЖ-РЕГРЕССЦЕЙ, 


А ЧТОБЫ УВЕЛИЧИТЬ 
КОЛИЧЕСТВО ВЕЛИЧИН, РАВНЫХ 
НУЛЮ, ИСПОЛЬЗУЕТСЯ 
ЛАССО-РЕГРЕССИЯ. 


РЕГУЛЯРИЗАЦИЯ ОСУЩЕСТВЛЯЕТСЯ 
ДОБАВЛЕННЕМ ДОПОЛНИТЕЛЬНОГО 
НЛЕНА К УРАВНЕНИЮ ОШИБКИ. 


НАЧНЕМ С ОБЪЯСНЕНИЯ 
РИДЖ-РЕГРЕССЦИ. 


Чтобы 
уменьшить 
это... это 


к 4 


Е(и) = (у- Хи Ку — Хи) + ам 


„надо 
увеличить 


Регулируем 
Баланс 


Если величина веса 
слишком маленькая... 


ло она далека 
от правильной 


МЫ ДОБАВЛЯЕМ 
ДОПОЛНИТЕЛЬНЫЙ ЧЛЕН, 
КВАДРАТ ПАРАМЕТРА \/ 


А @ ОТКУДА 
ВЗЯЛАСЬ? 


1.4. РЕГУЛЯРИЗАЦИЯ РЕЗУЛЬТАТА 


@ - ЭТО ВЕС ДОПОЛНИТЕЛЬНОГО ЧЛЕНА 
РЕГУЛЯРИЗАЦИИ, ЕСЛИ ПАРАМЕТР БОЛЬ- 
ШОЙ, ТО Э<РФРЕКТ РЕГУЛЯРИЗАЦИИ ИСПОЛЬЗУЯ РИДЖ-РЕГРЕССИЮ, МЫ НАХО- 
СТАНОВИТСЯ ВАЖНЕЕ ЭФРЗРЕКТИВНОСТИ, ДАМ ВЕЛИЧИНУ У, КОГДА ГРАДЧЕНТ 
ЕСЛИ МАЛЕНЬКИЙ, ТО Э<РФРЕКТИВНОСТЬ НО % ФУНКЦИИ ОШИБКИ РАВЕН 0, 
СТАНОВИТСЯ ВАЖНЕЕ. КАК И В СЛУЧАЕ НАХОЖДЕНИЯ ЭТОГО 
ПАРАМЕТРА МЕТОДОМ НАНМЕНЬШИХ 
КВАДРАТОВ, 


ш= (ХХ + а Ху 


Т- единичная матрица. 


А ТЕПЕРЬ ПОГОВОРИМ 
О РЕГРЕССИИ “ЛАССО", ЭТО 
РЕГУЛЯРИЗАЦИЯ, ПРИ КОТОРОЙ и 
ее - а СТАНОВИТСЯ АБСОЛЮТНОЙ 
г ` д ВЕЛИЧИНОЙ. 
ТАК НАЗЫВДЕТСЯ? : | но 


РЮСЕ ОЗНАЧАЕТ ГРЕБЕНЬ 
ГОРЫ, И ЕДИНИЧНАЯ МАТРИЦА 
НА НЕГО ПОХОЖА*. 


РЮСЕ - ЭТО КВАДРАТ \, 
ЛАССО - ЭТО ДЕСОЛЮТНАЯ 
ВЕЛИЧИНА У’. 
А ЧТО ТАКОЕ 


ое 


ЛАССО - ЭТО ПЕТЛЯ ДЛЯ ЛОВЛИ 
КОГО-НИБУДЬ, 


* Есть другие версии. 


КАК Я И ГОВОРИЛА, 
РИДЖ-РЕГРЕССИЯ - 
ЭТО РЕГУЛЯРИЗАЦИЯ 

ДЛЯ УМЕНЬШЕНИЯ ВЕЛИЧИНЫ 

ПАРАМЕТРА, 


ЭТО СЛОВО ИСПОЛЬЗУЮТ, 
КОГДА ГОВОРЯТ О КОВБОЯХ. 


ПРЕДСТАВЬ, ЧТО ВО МНОЖЕСТВО 
ПАРАМЕТРОВ КИДАЮТ ЛАССО ИЗНАЧАЛЬНО ЭТО АББРЕВЦАТУРА 
И ВЫБИРАЮТ САМЫЕ МАЛЕНЬКИЕ <РРАЗЫ СЕАЗТ АВЗОГИТЕ 
и НИХ. ЭНАМКАЕЕ АМО ЗЕСЕСТОМ 
ОРЕРАТОРЮ. 


ПОСКОЛЬКУ У - ПОСТОЯННОЕ А КАК МОЖНО ОБЪЯСНИТЬ 
СЛАГАЕМОЕ В УРАВНЕННЦИ, ЕГО ВЕЛИЧИНА РЕГРЕССИЮ “лАССО"? 
НЕ ПОВЛИЯЕТ НА ВЕЛИЧИНУ УРАВНЕНИЯ 
РЕГРЕССНИ, И ЕГО ОБЫЧНО 
НЕ РЕГУЛЯРИЗНРУЮТ. ЗДЕСЬ ЕСЛИ ВЕС 
ДОПОЛНИТЕЛЬНОГО ЧЛЕНА 


УВЕЛИНИВДЕТСЯ, РАСТЕТ 
ЧИСЛО ВЕЛИЧИН 
С ВЕСОМ, РАВНЫМ 0. 


ПОСКОЛЬКУ ТУДА ВХОДИТ АБСОЛЮТНАЯ ВЕЛИЧИНА, 
НЕ ДИЗРРЕРЕНЦИРУЕМАЯ В ТОЧКЕ НАЧАЛА КООРДИНАТ, 
НЕЛЬЗЯ НАИТИ ЗНАЧЕНИЕ АНАЛИТИЧЕСКИ, ИСПОЛЬЗУЯ 
Функция МЕТОД НАЦНМЕНЬШИХ КВАДРАТОВ, ПОЭТОМУ ВЕРХНИЙ 
абсолютного ПРЕДЕЛ/МАКСИМУМ ДОПОЛНИТЕЛЬНОГО 
значения НЛЕНА РЕГУЛЯРИЗАЦИИ ОГРАНИЧИВАЕТСЯ 
ь ДиФРФРЕРЕНЦИРУЕМОН КВАДРАТИЧНОЙ 
<РУНКЦИЕЙ. БЫЛ ПРЕДЛОЖЕН МЕТОД, 
НТОБЫ МНОГОКРАТНО ОБНОВЛЯТЬ ЕЕ 
ПАРАМЕТРЫ С ЦЕЛЬЮ УМЕНЬШЕНИЯ 
Квадратичная ОШИБКИ, 
функция 


С ПОМОЩЬЮ МЕТОДА “ЛАССО” 
МОЖНО ПРОРЕДИТЬ НЕЗАВИСИМЫЕ 
ПЕРЕМЕННЫЕ С ВЕСАМИ, НЕ РАВНЫМИ НУЛЮ, 
И НАЙТИ ТЕ, КОТОРЫЕ ОКАЗЫВАЮТ 
ВЛИЯНИЕ. 


Метод 
наименьших 


квадратов 


Метод 
ридж- 
регрессии 


Максимальная 


Минимальная 
ошибка 


КАК ПОКАЗАНО НА РИСУНКЕ, 

ПРИ ИСПОЛЬЗОВАНИИ РИДЖ-РЕГРЕССИЦ 
ОГРАНИЧЕНИЕ ДИАПАЗОНА ПАРАМЕТРОВ 
ОКРУЖНОСТЬЮ (ОБЩИЙ СЛУЧАЙ 
Я-МЕРНОЙ ГИПЕРСУРЕРЫ> НЕ ПОЗВОЛЯЕТ 
КАЖДОМУ ВЕСУ ПРИНИМАТЬ БОЛЬШОЕ 
ЗНАНЕННЕ, В ОБЩЕМ СЛУЧАЕ ТОЧКА 

КАСАНИЯ ИЗОЛИНИИ ЗРУНКЦИИ 
ОШИБКИ ЯВЛЯЕТСЯ ТОЧКОЙ НА 
ОКРУЖНОСТИ, КОТОРДЯ ЯВЛЯЕТСЯ 
ЗНАНЕНИЕМ ВЕСА ПАРАМЕТРА. 


ПОЭТОМУ ВЕЛИЧИНА 
ПАРАМЕТРА УМЕНЬШАЕТСЯ. 


А ТЕПЕРЬ Я ОБЪЯСНЮ, ЧЕМ 
РНДЖ-РЕГРЕССИЯ ОТЛИНАЕТСЯ 
ОТ РЕГРЕССЦИ “ЛАССО". 


наименьших 
квадратов 


Метод 
регрессии 
«лассо» 


А В СЛУЧАЕ РЕГРЕССИИ 


`ЛАССО”, ПРИ УСЛОВИИ ЧТО 
ОПРЕДЕЛЕНА СУММА ПАРАМЕТРОВ, 
ДИАПАЗОН ПАРАМЕТРОВ ОГРАНИЧЕН 

ОБЛАСТЬЮ (РОМБОМ», УГЛЫ 
КОТОРОГО ЛЕЖАТ НА КАЖДОЙ ОСИ, 

КАК ПОКАЗАНО НА РИСУНКЕ. 


И ОДИН ИЗ УГЛОВ РОМБА 
КАСАЕТСЯ ИЗОЛИНИИ ЗРУНКЦИИ 
ОШИБКИ, 


КАЖЕТСЯ, 
В УГЛАХ БОЛЬШИНСТВО 
ПАРАМЕТРОВ СТАНОВЯТСЯ 
РАВНЫМИ 0. 


ЭТО ВЛИЯНИЕ РЕГУЛЯРИЗАЦИИ 
РЕГРЕССИИ “ЛАССО", 


АД ТЕПЕРЬ ПОПРОБУЕМ ИСПОЛЬЗОВАТЬ ЯЗЫК 
ПРОГРАММИРОВАНИЯ РУТНОМ ДЛЯ РЕГРЕССНИ. НА РУТНОМ 
В РУТНОМ МОЖНО ИСПОЛЬЗОВАТЬ БИБЛИОТЕКУ Я ПРОГРАММИРУЮ ПЛОХО... 
МАШИННОГО ОБУЧЕНИЯ $СКТ-СЕДРМ И ДЕЛАТЬ 
С ЕЕ ПОМОЩЬЮ ПРОГРАММЫ. 


Для начала загрузим библиотеку. В зсИ-еагп подготовлено несколь- 
ко наборов данных, выберем методы из пакета Ча(азе!5. Для регрессии 
это линейная регрессия, ридж-регрессия и регрессия «лассо». 


Тгом $КТеагп.Чафазее$ 1троге Тоа4_Бо$фоп 
Ггот зКТеагп. 1Апеаг_тоде| 1троге [1пеагВедгез$1оп, В19де, Ёа$50 


В качестве данных для анализа мы возьмем 13 параметров из стан- 
дартной выборки Бозюп авазеь куда входят уровень преступности, 
количество комнат, географическое положение и прочие данные, свя- 
занные с недвижимостью. 


Атрибут даа экземпляра Бозоп, который создан при помощи приве- 
денного ниже кода, является матрицей, в которой признаковое описа- 
ние объекта располагается в виде столбцов (для 13-мерного признака 
будет 506 векторов-строк), а атрибут {агое! будет введен в качестве 
вектора-столбца - цены каждого свойства. 


Можно показать детали данных Ьо50п с помощью атрибута 4езсг 
функцией рип (Бозбоп.РЕ$СВ). 


Бо$фоп = 1оа9_Бо$оп() 
Х = Бо$оп.дафа 
у = Бо$Еоп. {агде* 


1.4. РЕГУЛЯРИЗАЦИЯ РЕЗУЛЬТАТА 


Код в зсЦкИ-еаги удобен для обучения. А теперь используем учебный 
набор данных. 


В этом экземпляре можно вызвать метод В который выполняет 
обучение с набором признаковых описаний Х и точной информацией 
у в качестве аргументов. 


Когда получено уравнение линейной регрессии, можно узнать прогно- 
зируемое значение, которое в качестве аргумента имеет 13-мерный 
вектор х, с помощью метода рге сё, который выведет прогнозируемое 
значение. 


А теперь попробуем провести регуляризацию. Для начала используем 
сумму квадратов и коэффициенты формулы линейной регрессии, ко- 
торые мы только что разобрали. 


Илеаг Кедге$$1оп 


СВТМ : -0.11 
2 : 0.05 
1045 : 0.02 
СНАЗ$ : 2.69 
№х : -17.80 
ВМ 3.80 
АСЕ : 0.00 
015 : -1.48 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


ВАО 0.31 
ТАХ : -0.01 
РТВАТТО: -0.95 
В 0.01 
Е5ТАТ -0.53 
сое+ = 341.86 


В19де 
СВТМ 

7№ 

14015 
СНАЗ 

МОХ 

ВМ 

АСЕ 

015 

КАБ 

ТАХ : 
РТВАТТО: 
В 

Е5ТАТ 
соеф = 25. 


Попробуем также провести ридж-регрессию. Поскольку в данные вхо- 
дят Х и у, лучше всего начать с постройки экземпляра, по которому 
можно провести обучение. 

Если есть параметр, который нужно указать, он задается в качестве 
аргумента экземпляра в формате «имя параметра = значение». Вес & 
дополнительного параметра регуляризации примем равным 10,0. 


1.4. РЕГУЛЯРИЗАЦИЯ РЕЗУЛЬТАТА 


Мы видим, что сумма квадратов коэффициентов абсолютно мала. 
А теперь применим регрессию «лассо». Вес а дополнительного пара- 
метра регуляризации примем равным 2,0 и заметим, что несколько 
коэффициентов равны 0. 


[а$$0 

САТМ : -0.02 
2 : 0.04 
1405 : -0.00 
СНА$ : 0.00 
№Х : -0.00 
ВАМ : 0.00 
АСЕ : 0.04 
015 : -0.07 
КАО : 0.17 
ТАХ : -0.01 
РТВАТТО: -0.56 
В : 0.01 
5ТАТ : -0.82 
сое{ = 1.02 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


ПОКА ВСЕ ПОНЯТНО? 


ОСТАЛОСЬ ПОПРОБОВАТЬ \\ 
НА ПРАКТИКЕ... 


ВСЕ В ПОРЯДКЕ? 


БОЖЕ МОЙ! КАКАЯ ОНА МИЛАЯ! 
КАКАЯ ХОРОШЕНЬКАЯ! И НЕ МОЖЕТ НАЙТИ 
РАБОТУ, ХОТЯ ОНА ТАКАЯ ЧУДЕСНАЯ! 


НАВЕРНЯКА ЕЕ МНЕНИЕ 
ОБО МНЕ НЕ ИЗМЕНИЛОСЬ. 


КАКИЕ СУРОВЫЕ 
СЛОВд.... 


БЫТЬ ВО РРЕНАДЗОНЕ 
ТОЖЕ ТОЛКУ МАЛО. 


Я-ТО ДУМАЛ, ЧТО СПРАВИЛСЯ 
С МОММИ нУВСТВАМИ, 
РАЗ НЕ ВИДЕЛ ЕЕ АВА 

МЕСЯЦА, ПОКА РАБОТАЛА... у 


НУ, РАЗ УЖ 
ОНА РАССКАЗАЛА МНЕ 
О МАШИННОМ ОБУЧЕННИ, 


ПОКАЖУ Я ЭТОМУ 
КОНСУЛЬТАНТУ! 


НЕ ДУМАЮ, ЧТО КИЁХДРА-КУН 


ВООБЩЕ ЧЕМУ-ТО НАУЧИЛСЯ, — но ОН БЫСТРО ВСЕ СХВАТЫВАЕТ, 
ХОТЯ УЧИЛСЯ ЧЕТЫРЕ ГОДА. МОЖЕТ, ЕМУ НАДО БЫЛО 


ПОБОЛЬШЕ МОТИВАЦИИ, 


ХОТЯ ОН И УЧИТЬСЯ НЕ ХОТЕЛ, 
И РАБОТАТЬ, А ВСЕ-ТАКИ ПРИШЕЛ 
СЮДА В ВЫХОДНОи, 

ЧТОБЫ ПОУЧИТЬСЯ, 


МОЖЕТ БЫТЬ, 
ЧТО-НИБУДЬ 
ИЗМЕНИЛОСЬ? 


1.4. РЕГУЛЯРИЗАЦИЯ РЕЗУЛЬТАТА 


В кабинете у Саяка (2) 


Математическое повторение (1) 


Вы много говорили о векторах и матрицах. Вектор - это после- 
довательность чисел, заключенная в скобки. Есть двухмерный 
вектор (а, 6), трехмерный (а, 6, с). А что такое 4-мерный вектор? 


Если Я больше четырех, то мы не можем представить х 
себе пространство, это трудно. Но необязательно х- | 2 
представлять пространство, можно просто предста- : 

вить очень много чисел, выстроенных в ряд. Ха 


Нет, не совсем так. Просто когда есть несколько признаков, их 
обычно представляют вертикально. В машинном обучении час- 
то складывают матрицы и векторы, и матрица обычно слева, 
а состав матрицы удобно выражать как произведение матриц. 


А вшколе матрицы не проходят. 


Можно сказать, что матрицы - это числа, записанные в виде 
прямоугольника. 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


Напомним, что столбцы идут сверху вниз, а строки слева на- 
право. 


Ага! 


Матрица, которая имеет 2 столбца и 2 строки, называется мат- 
рицей 2 на 2 (2х2). Сумма матриц - это матрица, элементы ко- 
торой равны сумме соответствующих элементов слагаемых 
матриц, но умножение матриц - очень трудная операция. 


х5+2х7} о _ | _ 


р 8 | = [`3х5+4х7 3х6+4х8 43 50 


Значение и-й строки и т-го столбца матрицы, которая являет- 
ся результатом умножения, определяется так: извлекаются 
п-я строка из первой матрицы и т-й столбец из второй и пере- 
множаются, начиная с первого числа, а затем складываются. 


А если число строк первой матрицы не совпадает с числом 
столбцов второй, то матрицы просто перемножить нельзя. 


Да. Все так. При умножении матрицы (1х]) на матрицу (]х^) ре- 
зультатом будет матрица (1*К), если говорить совсем просто. 


7 строк, ] столбцов — строк, К столбцов Г строк, К столбцов 


В КАБИНЕТЕ У САЯКА (2). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (1) 


Теперь рассмотрим транспонированные и обратные матрицы. 
Транспонированная матрица Х обозначается как ХТ и получает- 
ся при замене столбцов на строки и обратно. 


Векторы лучше представлять как особый случай. Например, 
4-мерный столбец-вектор может рассматриваться как матрица 
из 4 строк и 1 столбца. 


Именно. Обычное число называется скаляром. иТх - скаляр, 


и и’ — тоже скаляр. Их сумма у - тоже скаляр. 


А теперь посмотрим на более сложное уравнение 1.8. Матрицу, 
обратную матрице А, обозначим как А`'. Ай-тян, какое число 
обратно 5? 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


Да. В основном обратная матрица работает так же. В мире мат- 
риц число 1 называется единичной матрицей. Единичная мат- 
рица с одинаковым количеством столбцов и строк обозначает- 
ся [. Внутри нее по диагонали расположены единицы, а осталь- 
ные величины - нули. 


Попробуем перемножить ее с другой матрицей. Ничего не изме- 
нилось? 


Например, матрица А”', обратная матрице А, в которой два 
столбца и две строки, будет вычисляться по представленной ни- 
же формуле. 

Обычно вычисления матриц, обратной матрице с 4 столбцами 
и астроками, доверяют компьютеру. 


ь 1 Я —с 
са — аа-ь| -с а 


В КАБИНЕТЕ У САЯКА (2). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (1) 


Если матрицу А перемножить на обратную ей левую матрицу 
А”', то получится единичная матрица [. 


Есть еще непонятные места? 


Это греческая буква сигма, используется для записи суммы. 
а 

С использованием сигмы формула У, их, записывается прос- 
ре 


то так. 


Ну... это... Проще говоря, можно представить вектор как обыч- 
ную переменную и дифференцировать. 


ГЛАВА 1. ЧТО ТАКОЕ РЕГРЕССИЯ 


ГЛАВА Э 
КАК ДЕЛАТЬ 
КЛАССИФРИКАЦИЮ? 


„ТАКОЕ! В ЛАБОРАТОРИЮ 
НАДО ВХОДИТЬ 


ЧТО ОПЯТЬ СЛУЧИЛОСЬ? 
ОПЯТЬ КОНСУЛЬТАНТ? 


БЛАГОДАРЯ ЛИНЕННОЙ\ 
РЕГРЕССИИ Я СМОГ | 
СПРОГНОЗИРОВАТЬ, 
НТО ГОСТЕН БУДЕТ 

БОЛЬШЕ. 


ДА! СПАСИБО, БЛАГОДАРЯ ТЕБЕ 
ВСЕ ПРОШЛО КАК ПО МАСЛУ! 


ПОСЛЕ ОБРАБОТКИ 
ДАННЫХ ТАК, КАК ВЫ 
РАССКАЗАЛИ, Я ПОГОВО- 
РИЛ С ОТВЕТСТВЕННЫМИ 
ЛИЦАМИ И УБЕДИЛ ИХ 
ЗАКАЗАТЬ ПОБОЛЬШЕ 
НАПИТКОВ. 


И МЕРОПРИЯТНЕ ПРОШЛО 
ПО ПЛАНУ И ИМЕЛО УСПЕХ! 


И ТЕПЕРЬ ТЫ 
ХОРОШО, ЧТО ТЫ НЕ ДАЛ р ц 
. - ая что-то 
ОБВЕСТИ СЕБЯ ВОКРУГ ОШ 


ПОСВЯТИТЬ СЕБЯ НЕ ТО СКАЗАЛАР 
ПАЛЬЦА. СВОИМ РАБОНИМ 
ОБЯЗАННОСТЯМ! 


ДА! СПАСИБО ОГРОМНОЕ, 
СЭМПАИ! 


ТЕПЕРЬ ВСЕ В МЭРИИ 
ДУМАЮТ ОБО МНЕ ИНАЧЕ... ОБО МНЕ ВДРУГ ЗАГОВОРИЛИ, 
Ц ТЕПЕРЬ ВСЕ спРАШИВАЮТ | 
У МЕНЯ СОВЕТА ПРО МАШИННОЕ 
А ОН, ВИДИМО, РАЗБИРДЕТСЯ ОБУЧЕННЕ. ы 
В МАШИННОМ ОБУЧЕНИИ! 


В МОЕМ ОТДЕЛЕ ЗАРАВООХРАНЕНИЯ 
И БЛАГОСОСТОЯНИЯ ХОТЯТ УМЕНЬШИТЬ 
РАСХОДЫ НА МЕСТНУЮ МЕДИЦИНУ 
НИ В ТО ЖЕ ВРЕМЯ УВЕЛИЧИТЬ 
ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ ЛЮДЕН. 


У НАС УВЕЛИЧИЛОСЬ КОЛИЧЕСТВО БОЛЬНЫХ 
ДИДБЕТОМ, М МЕНЯ ПОПРОСИЛИ ОПРЕДЕЛИТЬ, 
ИСХОДЯ ИЗ ДНАГНОСТИНЕСКИХ ДАННЫХ, 
КТО НАХОДИТСЯ В ГРУППЕ РИСКА. 


ДАННЫЕ ВСЕ УЖЕ СОБРАНЫ. 


° ТАК. ДАННЫХ ПОРЯДОЧНО _ 

_ НО ЕСТЬ Ц ТЕ, У КОГО НЕ ВСЕ МЕДОСМОТРЫ ПРОНАЕНЫ, - 

_  ШАЫ ЖЕ НЕ ВСЕ ВРАЧИ.. РЕГРЕССИЮ НЕ ПОСТРОЦНТЬУ с 
_ НУЖНА КААССЦФРИКАЦИЯ ПО КАТЕГОРНАМ. 


ЛАДНО, 
И ТУТ Я ЗАСТРАЛ... ЧТО-НИБУДЬ 


ПРИДУМАЮ. 


ВЕДЬ МЫ ИЗУЧАЛИ 
РЕГРЕССИЮ 
НА ПРОШЛОМ ЗАНЯТНИ. 


ХОНЕШЬ, Я ПОМОГУ ТЕБЕ РАЗОБРАТЬСЯ 
С КЛАССИОРИКАЦИЕЙР 


НЕТ-НЕТ, Я ЗАШЕЛ ТЕБЯ 
ОТБЛАГОДАРИТЬ! 


НЕТ-НЕТ-НЕТ! 
ХВАТИТ С МЕНЯ БЕЗОТВЕТНОЙ ЛЮБВИ! 
Я БОЛЬШЕ ЭТОГО НЕ ВЫНЕСУ, 
ОНА МНЕ ТДК НРАВИТСЯ! 


ТЫ ЖЕ ХОЧЕШЬ, ЧТОБЫ ВСЕ ЖИТЕЛИ 


СЕГОДНЯ Я РАБОТАЮ 
ДНЕМ, НАДО БЕЖАТЬ. 
ЕЩЕ РАЗ СПАСИБО 
ЗА ПОМОЩЬ. 


ПОГОДНИ-КА, 
КИЁХАРА-КУН 


КИЁХАРА-КУН, 


БЫЛИ ЗДОРОВЫМИ? 


НЕ ЗДБИВДАИ НД ЭТО! 
К ТОМУ ЖЕ ТЫ СМОЖЕШЬ СДЕЛАТЬ 
ХОРОШИЙ ПРОЕКТ, 


Д-ДА, ХОНУ... 
С ЧЕГО БЫ ТАКОЕ ДАВЛЕННЕ... 


КНЁХАРА-КУН, ТЫ БУДЕШЬ 
МОНМ УЧЕНИКОМ! Я НЕ УСПОКОЮСЬ, 
ЕСЛИ НЕ ПОЗДАБОНУСЬ О ТЕБЕ! 


У ТЕБЯ ЕСТЬ ВРЕМЯ В СУББОТУ? 


ДА, ЕСТЬ... 


ВСТРЕТИМСЯ В СЕМЕЙНОМ 
РЕСТОРАНЧИКЕ В ДВА ЧАСА! 


НЙ ХОРОШО.. и 
- НЕТ, ВЕЛИКОЛЕПНО! 


п 
ИЕ 


=== 


СуББ 


ота 


А МЫ ВЕДЬ ТУТ о 
УЖЕ БЫЛИ... | ТЫ БУДЕШЬ МОЦМ УЧЕНИКОМ! 


_ ТЫ МНЕ _ | 
КАК БРАТ 


ПРОДВИНУЛСЯ ОТ БРАТИКА 
ДО УЧЕНИКА, НАЗЫВАЕТСЯ, 


РЕГРЕСС? НЕ ЗНАЮ!!! 


а ^ у 
{ | 
АК 
ПРОГРЕСС ли ЭТОР 2 | 7 | 


ПОТИШЕ! 
ТЫ ЖЕ В РЕСТОРАНЕ! 


КАКАЯ ОНА МИЛАЯ! 


извини, что 
НАПРЯГАЮ ТЕБЯ 
В ВЫХОДНОи, 


РАЗВЕ? 
ЭТО БЫЛА МОЯ ИДЕЯ, 


ДАВАЙ-КА 
НТО-НИБУДЬ ЗАКАЖЕМ. 


ОПРЕДЕЛИМСЯ, КАКИЕ ДАННЫЕ НУЖНЫ 
ДЛЯ ПАЦИЕНТОВ В ГРУППЕ РИСКА 
ЗАБОЛЕВАНИЯ ДИАБЕТОМ. 


ЕСТЬ ДАННЫЕ ЗА 1О ЛЕТ, 
НО ОНИ НЕ СОВСЕМ ПОЛНЫЕ. 


ЕСЛИ У НАС ЕСТЬ НЕДОСТАЮЩИЕ 
ЗНАЧЕНИЯ, ОБУНЕНИЕ МОЖЕТ ПОЙТИ 
ПЛОХО, ПОЭТОМУ НАДО ПРИВЕСТИ 
ДАННЫЕ В ПОРЯДОК, 


МНЕ, ПОЖАЛУЙСТА, 
ПЕРСИКОВЫЙ ПАРФРЕ, 
ШОКОЛАДНЫЙ ТОРТ, 
ЖЕЛЕ АММИЦУ И КОРЕ 
ЦЗ ДРИНК-БАРА. 


КАКАЯ ВЫ 
СЛАДКОЕЖКА! 


НЕ, ЖАРА ЖЕ, 
САМОЕ ВРЕМЯ 
ДЛЯ ДЕСЕРТОВ. 


НАЧИНАЕМ УРОК! 


Диабет 


Недостающие значения 


ЕСЛИ ДАННЫХ МНОГО, 

ТО МОЖНО, КОНЕЧНО, ВЫБРОСИТЬ ВСЕ 
С НЕДОСТАЮЩИМИ ЗНАЧЕНИЯМИ, 
НО НАДО ЖЕ ЦХ Э$РФРЕКТИВНО 

ИСПОЛЬЗОВАТЬ, 


ХУ 
АУ 


й 


ий 
о 
С 


р 


ПРОСТОЙ СПОСОБ - ЗАПОЛНИТЬ 
НЕДОСТАЮЩИЕ ЗНАЧЕНИЯ 
СРЕДНИМИ ДАННЫМИ. 


ДА, 


ТАК БУДЕТ ЛУЧШЕ. 


ЧТОБЫ ВЫБРОСЫ НЕ ОКАЗАЛИ ВЛИЯНИЕ, 
ИСПОЛЬЗУЮТ НЕ СРЕДНЕЕ ЗНАЧЕНИЕ, 


А МЕДНАННОЕ ИЛИ МОДУ. 
Количество съеденных 
за день пирожков 


Среднее: 22/9 
Примерно 2,4 


А 
ФО 
[+2 


12 


Медиана = ОНИ УМЕНЬШАЮТ 
(5-я позиция из 9]: 1 ВЛИЯНИЕ ВЫБРОСОВ ЛУЧШЕ, 
ЧЕМ СРЕДНЕЕ ЗНАЧЕНИЕ. 


ЗАДАНА КЛАССИФРИКАЦИИ - 


ОДНАКО ЕСЛИ ДАННЫХ МАЛО, 
ИЛИ ЖЕ СРЕДИ НИХ ЕСТЬ ВЫБРОСЫ, 
КОТОРЫЕ НЕ ПОПАДАЮТ ПОД ОБЩЕЕ 
РАСПРЕДЕЛЕНИЕ, ТО ЗАПОЛНЯТЬ 
НЕДОСТАЮЩИЕ ДАННЫЕ СРЕДНИМИ 
ЗНАЧЕНИЯМИ НЕ СТОНТ. 


ТО ЕСТЬ НУЖНО ПРИВОДИТЬ 
В ПОРЯДОК ДАННЫЕ, СОЗНАВАЯ, 
ЧТО ЕСЛИ МЫ ДОБАВИМ 
ОПРЕДЕЛЕННЫЕ ЗНАЧЕНИЯ, 
ТО РАСПРЕДЕЛЕНИЕ ДАННЫХ 
ИЗМЕНИТСЯ? 


ЭТО ЗАДАЧА РАСПРЕДЕЛЕНИЯ 
ПО УЖЕ ЗАДАННЫМ КЛАССАМ. 


ТИПИЧНЫЕ ЗАДАЧИ КЛАССИЗРИКАЦИИ 
ВКЛЮЧАЮТ В СЕБЯ РАСПОЗНАВАНИЕ РЕЧИ 
И ТЕКСТА, РМ-КЛАССИРИКАЦИЮ РЕЦЕНЗИИ, 

ОПРЕДЕЛЕНИЕ НАЛИЧИЯ ИЛИ ОТСУТСТВИЯ 
БОЛЕЗНИ. 


позитивный 
ИЛИ НЕГАТИВНЫЙ, 


ХВАЛЯТ ИЛИ РУГАЮТ 
ПРОДУКТ. 


САМАЯ ПРОСТАЯ 
ИЗ ЗАДАЧ КЛАССИФРИКАЦИИ - 
ЭТО БИНАРНАЯ КЛАССИФРИКАЦИЯ. 


БИНАРНАЯ КЛАССИФРИКАЦИЯ - 
ЭТО РАЗДЕЛЕНИЕ НА ДВЕ ЧАСТИ? 


ПОКА ЧТО ДЛЯ ПРОСТОТЫ ПРЕДПОЛОЖИМ, 
ЧТО ВВОДЯТСЯ ТОЛЬКО ВЕКТОРЫ 
С ЧИСЛЕННЫМИ ЗНАЧЕНИЯМИ, 


НЕ ВИДИШЬ? 
МОЖЕТ, ТЕБЕ ОТСЮДА 
НЕ ПОНЯТНО. 


ЧТОР НЕТ! 
Я ВСЕ ВИЖУ, 
И МНЕ ВСЕ 
ПОНЯТНО! 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


ИМЕННО. БОЛЕН ЧЕЛОВЕК ИЛИ НЕТ, 
ИДЕТ ПИСЬМО В СПАМ ИЛИ НЕТ - 
ЭТО ЗАДАЧА НА РАЗДЕЛЕНИЕ 
ПО ДВУМ КЛАССАМ. 


/Яионские 
слидости 
или нет 


ЕСЛИ ВВОДЯТСЯ ДВУХМЕРНЫЕ ВЕКТОРЫ, 
ТО ДАННЫЕ МОЖНО РАСПОЛОЖИТЬ 
НА ПЛОСКОСТИ ВОТ ТАКИМ ОБРАЗОМ: 


В ЗАВИСИМОСТИ ОТ КЛАССА 
ОБОЗНАНИМ ИХ ЧЕРНЫМИ 
ИЛИ БЕЛЫМИ ТОЧКАМИ, 


МОЖЕТ МНЕ ПРОЩЕ ВСТАТЬ 


И ТАК ОБЪЯСНЯТЬ... 


НЕТ-НЕТ-НЕТ! 
И ТАК ПОНИМАЮ! 


Д-Д-Д-Д-ДА. Я ПЕРЕСЯДУ! 


БЛИН... 
ТАК БЛИЗКО! 


ИТАК, ПОСМОТРИ 
НА РИСУНОК, 
ЧТО ТЫ ВИДИШЬ? 


В СЛУЧАЕ ЗАДАЧИ БИНАРНОЙ 
КЛАССИФРИКАЦИИ, КАК СЕЙЧАС, 
ПРИЗНАКОВОМУ ОПИСАНИЮ ОБЪЕКТА 
х = (хь ... хаГ СООТВЕТСТВУЕТ 
ВЗВЕШЕННАЯ СУММА ВСЕХ ПРИЗНАКОВ 
"11 ЯРУ Уаха: 
НЕОБХОДИМО 
СКОРРЕКТИРОВАТЬ ВЕС ТАК, 
ЧТОБЫ ДЛЯ ПОЛОЖИТЕЛЬНЫХ 
ПРИМЕРОВ <РУНКЦИЯ ПРИНИМАЛА 
ЗНАНЕНИЯ, БЛИЗКИЕ К 1, 
ДА АЛЯ ОТРИЦАТЕЛЬНЫХ - 
БЛИЗКИЕ К 0. 


® черный кружок х вес = Близко к1 
О Белый кружок х вес = Близкоко 


Распределение весов 


ИНЫМИ СЛОВАМИ, ЛОГИСТИНЕСКУЮ РЕГРЕССИЮ 
МОЖНО ПРЕДСТАВИТЬ КАК РАСШИРЕНИЕ ЗАДАЧИ 
РЕГРЕССИИ. ПОГОВОРИМ О ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ! 


КАК И В СЛУЧАЕ РЕГРЕССНИ, 
НАДО ПРОВЕСТИ ПРЯМУЮ, 
КОТОРАЯ ОТДЕЛИЛА БЫ ЧЕРНЫЕ 
ТОЧКИ ОТ БЕЛЫХ? 


ИМЕННО! 
ПРОДОЛЖИМ 
МЫСЛИТЬ В ТОМ 
ЖЕ НАПРАВЛЕННИ. 


:] Логистическая регрессия - метод 
нахождения функции на основании ввода 
взвешенной суммы данных; если элемент 
данных принадлежит кположительному 
классу, то выход формулы регрессии 
Близок к1, аесли к отрицательному, то он 
Будет Близокко. 


ИНЫМИ СЛОВАМИ, ЕСЛИ НАСТРОИТЬ ВЕС 
ТАК, ЧТО РЕЗУЛЬТАТ <РОРМУЛЫ РЕГРЕССИИ 
БУДЕТ РАВЕН 1 ДЛЯ ПОЛОЖИТЕЛЬНЫХ 
ПРИМЕРОВ и 0 ДЛЯ ОТРИЦАТЕЛЬНЫХ, 
ТО НЕВОЗМОЖНО РЕШИТЬ ЭТО УРАВНЕНИЕ, 
ЕСЛИ Хх = 0; ПОЭТОМУ В КАЧЕСТВЕ 
ПАРАМЕТРА ДОБАВЛЯЕТСЯ 
постоянная и). 

[5 
<. 
^ Т > 
9(х) = мо их, + --- + идха=тчих 


Ц ПОЛУЧАЕТСЯ 
ТАКАЯ <РОРМУЛА: 


2.3. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ 


9х) = мо + их, + + иаЕТЪНИХ 


ЗДЕСЬ иГх - 
ВНУТРЕННЕЕ ПРОИЗВЕДЕНИЕ ВЕКТОРА и 
НА ВЕКТОР х. ЭТО МОЖНО ОПРЕДЕЛИТЬ 
КАК СУММУ ПРОИЗВЕДЕНИЙ 
СООТВЕТСТВУЮЩИХ ЭЛЕМЕНТОВ. 


ПОСКОЛЬКУ ДЛЯ ГИПЕРПЛОСКОСТИ $(х) = 0, 
Я-МЕРНУЮ ГИПЕРПЛОСКОСТЬ МОЖНО ВЫРАЗИТЬ 
УРАВНЕНИЕМ. ЕСЛИ ПЛОСКОСТЬ ВЕДЕТ СЕБЯ, 
КАК УКАЗАНО ВЫШЕ, ТО ЧТО БУДЕТ ПОСЛЕ ТОГО, 
КАК ВСЕ ОПРЕДЕЛЕНО? 


э 8 ПОЛОЖИТЕЛЬНОЙ ПЛОСКОСТИ 
НУ, ЕСЛИ ПЛОСКОСТЬ ЗНАЧЕНИЕ БУДЕТ ПОЛОЖИТЕЛЬНОЕ, 
РАвнд 0.. В ОТРИЦАТЕЛЬНОЙ - ОТРИЦАТЕЛЬНОЕ? 


А МОЖЕТ ТАК БЫТЬ, ЧТО 
$(х) в зависимости 
ОТ ЗНАЧЕНИЯ Х БУДЕТ 

ТО УВЕЛИЧИВАТЬСЯ, 
то — о 

КОНЕЧНО, ОТ МИНУС 

БЕСКОНЕЧНОСТИ ДО 

ПЛЮС БЕСКОНЕЧНОСТИ. 


ПОВЕРХНОСТЬ, КОТОРАЯ 
ДЕЛИТ ПРОСТРАНСТВО 
ПРИЗНАКОВ НА КЛАССЫ, 
АЗЫВДЕТСЯ РАЗДЕЛЯЮЩЕЙ. 
ТОЧНОСТЬ, С КОТОРОЙ 
МОЖНО ОТНЕСТИ ТОЧКУ 
К ТОМУ ИЛИ ИНОМУ 
КЛАССУ, ОПРЕДЕЛЯЕТСЯ 
ЕЕ РАССТОЯНИЕМ ОТ 
ТОЙ ПОВЕРХНОСТИ, 


НЕ ЗАБЫВАИ, 
ЧТО НАДО УЗНАТЬ, 
К КАКОМУ КЛАССУ 
ОТНОСЯТСЯ ТОЧКИ 
НА ПЛОСКОСТИ! 


$(х) Бесконечно 
велика 


Определение 
поверхности 


$(х) Бесконечно мала 


ЕСЛИ МЫ ВОЗЬМЕМ ПРЕОБРАЗОВАННУЮ 


1 
ПОСКОЛЬКУ ТРУДНО ОЦЕНИТЬ ВЕРОЯТНОСТЬ ФУнкцию р(+|х) = 1+ Ето "© ПО ФОРМУЛЕ 


ПРИНАДЛЕЖНОСТИ Хх К ПОЛОЖИТЕЛЬНОМУ 
КЛАССУ, НАДО СДЕЛАТЬ ТАК, ЧТОБЫ НИЖЕ МОЖНО ПОЛУЧИТЬ ВЕРОЯТНОСТЬ 


РАЗБРОС РЕЗУЛЬТАТОВ НА ВЫХОДЕ ФУНКЦИИ ПРИНАДЛЕЖНОСТИ Х К ПОЛОЖИТЕЛЬНОМУ 
$(х) КОЛЕБАЛСЯ ОТ О ДО т ЕСЛИ Хх ПРИНАД- КЛАССУ. 
ЛЕЖИТ К ПОЛОЖИТЕЛЬНОМУ КЛАССУ, 
ТО РЕЗУЛЬТАТ ДОЛЖЕН БЫТЬ БЛИЗОК К 1, 
А ЕСЛИ К ОТРИЦАТЕЛЬНОМУ, 
ТО БЛИЗОК К 0. __ 1 


РСН = рен 


\/ <) А КАКОВА ВЕРОЯТНОСТЬ ТОГО, 
НТО Х ПРИНАДЛЕЖИТ 
> 
р ра К ОТРИЦАТЕЛЬНОМУ КЛАССУ? 


ЕСЛИ ВЫНЕСТЬ ВЕРОЯТНОСТЬ ПОЛОЖИТЕЛЬНОГО КЛАССА ИЗ 1, 


то р(-|х) =1-р (+? 


ВОТ ГРАФРИК ЭТОЙШ <РУНКЦНИ, 


1.0 


$1211014($(х)) 


0.8 


$(х) 


—10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 10.0 


ЕСЛИ ПОСМОТРЕТЬ НА ГРАеРИК, ЯСНО, 

ЧТО КАКОЕ БЫ ЗНАЧЕНИЕ НИ ПРИНЯЛА <ФУНКЦИЯ 
$(х) = мо + И"ТХ, РЕЗУЛЬТАТ БУДЕТ НАХОДИТЬСЯ 
В ДИЛПАЗОНЕ ОТ 0 до 1. 
это - сигмондндя <УНкциЯ. 


ЕСЛИ $(х) = 0, то <УНкцИЯ 
ПРИМЕТ ЗНАЧЕНИЕ 0,5. 


ЭТО ФУНКЦИЯ, ПОКАЗЫВАЮЩАЯ 
ЗНАЧЕНИЕ ВЕРОЯТНОСТИ, 


77% 
=. 


Далее поговорим о том, как провести обучение логистической 
классификации. Логистический классификатор можно рассмат- 
ривать как вероятностную модель с весовым параметром ч.. 


Здесь и далее для простоты объяснения * будет включать в себя о. 


Логистический 
классификатор 


Е: 
71+ 


Сравнение Правильный 


Вход = Параметр и 4—==% результат 
х и" 0 у 
| 


и | 


Пусть в данных для обучения Д этой модели при входех, а на выходе о;. Желае- 
мый выход обозначим положительным исходом у. Предположим, что у нас задача 
бинарной классификации, у; = 1, если данные принадлежат к положительному 
классу, а если к отрицательному, то у; = 0. 

Чтобы правильно провести обучение созданной модели и оценить значение, не- 
обходимо уравнение правдоподобия, которое приведено ниже. П обозначает про- 
изведение. 


Р(Р|®) = П 9 о)”. 
хеЕР 


9 = о) принимает значение о, если элемент данных принадлежит к поло- 
жительному классу, и тогда (у; = 1), и значение (1 - 0;), если к отрицательному 
(у; = 0). Иными словами, если настроить веса и так, что при положительном ре- 
зультате выходное значение о; будет близко к 1, а при отрицательном результате о; 
будет близко к 0, то во всех данных величина произведения Р(О|м) будет увеличи- 
ваться в зависимости от данных. 


При расчете значения максимального правдоподобия для прос- 
тоты расчета используется логарифмическая функция правдо- 
подобия. 


О) = 10$ Р(Б|м) = >, {уПохо; + (1 - у108(1 - 0}}. 


ЗААМИИИИИИИНИИНИООООООООВООООООТООАО ОО ЕЕОЕООООТООТЕООЕОВЕОТОООООА ОТО О ООО ООАООТ ООО ЕООООООООООООООООООНАРА 


$ 


$ 
А 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


ЗАМИИИИИИИИ О ЕОНАА 
5 е. 


Чтобы представить ясней задачу оптимизации, в дальнейшем бу- 
дем рассматривать задачу минимизации функции ошибки Е(и), 
которая может быть определена как логарифмическая функция 
со знаком минус. 


Ем) = —ю5Р(О|м). 


Продифференцировав, найдем предельное значение . Посколь- 
ку модель - логистический классификатор, выход о; будет пред- 
ставлять собой сигмоидную функцию. 


Производная сигмоидной функции будет выглядеть так: 
$/(2) = $(2). (1 - 5(2)). 


Поскольку на выходе модели есть функция веса у, при ее измене- 
нии меняется величина ошибки. Решение таких задач можно 
найти методом градиентного спуска. Метод градиентного спус- 
ка - это метод сходимости к оптимальному решению путем мно- 
гократного постепенного уменьшения параметров в направле- 
нии градиента минимизируемой функции. 


В этом случае мы немного меняем параметр и", чтобы найти направление наи- 
скорейшего спуска функции ошибки Е(и)). Это «немного» обозначается коэффици- 
ентом обучаемости /. Используя метод градиентного спуска, можно вывести но- 
вую формулу веса. 


$ 


Ш 


х 
АА 


2.3. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ 


АМИ, 


< “, 
Е Затем вычислим направление градиента функции ошибки Е(и) Е 
Е по формуле ниже: Е 
Е ав) _ ум 1- - 
Е = Оо У, уро Е 
Е ди хЕР 0; 1 —- 0; К ) г 2250 ) 1 Е 
= Следовательно, новая формула веса будет выглядеть так: Е 
Е мии Х (у -одх, Е 
Е хер Е 
= Когда новое значение веса будет ниже заранее определенного значения, метод гра- Е 
= диентного спуска закончен. Е 
Е дЕ(и) Е 
- Е(ы : 
Е ох Е 
Е К ° Е 
= 4 $ Е 
Е хх УХ х% | Е 
Е $9 9%9$.9.$.2-2 Г Е 
Е © Е 
Е аа ое Е 
Е ОХ | 2225 © Е 
Е 2 С : — Е 
Е Минимальное ^^ [о Е 
Е решение ——` : Е 
= Метод, при котором градиент вычисляют на основании всех данных для обучения Е 
= О, называется пакетным (ЪаёсЬ те оч). Если из р выбирают данные определен- Е 
= ной величины и вычисляют отдельный градиент по ним, то это называется мини- Е 
= пакетный метод (тиши! Ба{сБ), а метод, когда из Р случайно выбирают элемент дан- Е 
= ных и вычисляют градиент для него, называется методом стохастического гради- Е 
= ентного спуска. Е 
О ее 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


ДЕРЕВО? 
Г’ ДАЛЕЕ - классиерикАциЯ путЕМ РЕШАЮЩЕГО \ А КОТОРОЕ РАСТЕТ? 
ДЕРЕВА... ВОЗМОЖНО, ЭТОТ СПОСОБ ПОДХОДИТ 
АЛЯ ОПРЕДЕЛЕНИЯ ТЕХ, КТО РИСКУЕТ 
ЗАБОЛЕТЬ ДИАБЕТОМ, 


ДА, ТОЛЬКО 
КОРНИ У НЕГО БУДУТ СВЕРХУ, 
А ЛИСТЬЯ - СНИЗУ, 


Решающее дерево состоит 
из узлов (веток), в которых 
данные классифицируются, 
илистьев, в которых выводится 
С ( 


результат классификации. С 
Узел 


Лист 


МОЖНО ПРЕОБРАЗОВАТЬ 
ДЕРЕВО В ЭКВИВАЛЕНТНОЕ ЛОГИЧЕСКОЕ 
ВЫРАЖЕНИЕ, КОМБИНИРУЯ ЗНАНЕНИЯ ВЕТВЕЙ 
УЗЛОВ, КОТОРЫЕ ВЕДУТ К ПОЛОЖИТЕЛЬНОМУ 
РЕЗУЛЬТАТУ С УСЛОВИЕМ И, А ВСЕ 
ОСТАЛЬНОЕ - С УСЛОВЦЕМ ИЛИ. 


ОДНАКО ПОСКОЛЬКУ ОБЪЯСНИТЬ, 
ПО СТРУКТУРЕ ДЕРЕВА КАК ОНО РАБОТАЕТ, 
ЛЕГЧЕ НАГЛЯДНО ПРЕДСТАВИТЬ 3 МОЖНО НА ПРИМЕРЕ ИГРЫ 
РЕЗУЛЬТАТ ОБУЧЕНИЯ, С В “ДАНЕТКИ", 
ТО ЭТОТ МЕТОД ПРЕДПОЧТИТЕЛЕН, 


РЕШАЮЩЕЕ ДЕРЕВО 
ПРОЩЕ ПОНЯТЬ, 
ЧЕМ ЛОГИЧЕСКИЕ СХЕМЫ, 


ЭТО ИГРА, В КОТОРОЙ НАДО ОТГАДАТЬ ТО, 
НТО ЗАГАДАЛ ВЕДУЩИЙ, ЗАДАВ НЕ БОЛЕЕ 
О ВОПРОСОВ, НА КОТОРЫЕ МОЖНО ОТВЕТИТЬ [: 
ТОЛЬКО “ДА” ИЛИ “НЕТ”. у МОЖЕТ БЫТЬ, 
ИГРАЛ В ДЕТСТВЕ В НЕЕ? 


Животное” 


СЕКРЕТ УСПЕХА В ТОМ, 
НТОБЫ СНАЧАЛА НЕ ЗАДАВАТЬ 


НАЛ 
СЛИШКОМ КОНКРЕТНЫЕ ВОПРОСЫ. СПАЧАЛА НАХО 


Е ЗАДАВАТЬ ОБЩИЕ ВОПРОСЫ, 

ЕСЛИ ПЕРВЫЕ ВОПРОСЫ БУДУТ ЧТОБЫ ПОНЯТЬ, ЧТО ЭТО? 

КОНКРЕТНЫМИ, МОЖНО СУЗИТЬ 
список каНДидАтОВ, 


НО В БОЛЬШИНСТВЕ СЛУЧАЕВ |Оно ядови 


НИКАКОЙ КОНКРЕТНОЙ 
ИНЗРОРМАЦИИ УЗНАТЬ 
НЕ ПОЛУЧИТСЯ, 


РЕШАЮЩЕЕ ДЕРЕВО СТРОЦТСЯ 
ИМЕННО НА ОСНОВЕ ЭТОГО СЕКРЕТА - 
ВСЕ ВОПРОСЫ, НА КОТОРЫЕ ДДЕТСЯ ОТВЕТ, 
ЯВЛЯЮТСЯ УЗЛАМИ ДАННОГО ДЕРЕВА, 


В ОСНОВНОМ ДЛЯ ПОСТРОЙКИ 
ТАКОГО ДЕРЕВА ИСПОЛЬЗУЕТСЯ 
АЛГОРИТМ ТО3. 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


Погода | Температура | Влажность |Ветер | Играем? 
1 |Ясно Высокая Высокая Нет Нет 
2 |Ясно Высокая Высокая Да Нет 
3 | Облачно | Высокая Высокая Нет Да 
4 |Дождь Средняя Высокая Нет Да 
5 |Дождь Низкая Стандартная | Нет Да 
6 |Дождь Низкая Стандартная | Да Нет 
_ 7 | Облачно | Низкая Стандартная | Да Да 
| 8 |Ясно Средняя Высокая Нет Нет 
9 |Ясно Низкая Стандартная | Нет Да 
10 | Дождь Средняя Стандартная | Нет Да 
11 | Ясно Средняя Стандартная | Да Да 
12 | Облачно | Средняя Высокая Да Да 
13 | Облачно | Высокая Стандартная | Нет Да 
14 | Дождь Средняя Высокая Да Нет 


ОНИ ПОКАЗЫВАЮТ, 
ИГРАЛИ ЛЮДИ В ГОЛЬ<Р 
НА ПРОТЯЖЕНИИ ДВУХ НЕДЕЛЬ 
ИЛИ НЕТ? 


ЭТО ДАННЫЕ ПО ИГРЕ В ГОЛЬФР, 
НА ПРИМЕРЕ КОТОРЫХ 
МЫ РАССМОТРИМ ТО3З-АЛГОРИТМ. 


С КАКОГО ВОПРОСА 
ТОГДА ЛУЧШЕ НАЧАТЬ? 


ЗАДАЧА СОСТОИТ В ТОМ, 
ЧТОБЫ ОПРЕДЕЛИТЬ, МОЖНО ИГРАТЬ 
В ГОЛЬЗР ИЛИ НЕТ ПРИ СООТВЕТСТВУЮЩИХ 
ПОГОДНЫХ УСЛОВИЯХ, НАДО ВЫДЕЛИТЬ 
ОДНУ КОНКРЕТНУЮ ВЕЛИЧИНУ И УЗНАТЬ 
ОТВЕТ ПРИ ПОМОЩИ НАИМЕНЬШЕГО 
КОЛИЧЕСТВА ВОПРОСОВ. 


1 Е: 
\ — | 
НЕ МОГУ СРАЗУ СКАЗАТЬ... 
№ 


ДОПУСТИМ, МЫ ЗАДАДИМ ТАК. КАЖЕТСЯ, 
ВОПРОС ПРО ВЛАЖНОСТЬ. В ЗАВИСИМОСТИ | ТУТ НЕЛЬЗа НИЧЕГО 
ОТ ОТВЕТА ДАННЫЕ БУДУТ ВЫДЕЛИТЬ, 
ДЕЛИТЬСЯ ТАК, 
Данные р КАК ПОКАЗАНО НИЖЕ: 


(8) (8, Если мы сначала спросим 


про влажность, то какой Бы 
Высокая Средняя Низкая ответ ни был выбран, 


условия для задания 
второго вопроса не Будут АГА. ПОТОМУ, 
отличаться от предыдущих. | НТО УСЛОВИЯ СОВСЕМ 


НЕ ОТЛИЧАЮТСЯ, 


Д ЕСЛИ МЫ ВЫБЕРЕМ В СЛУЧАЕ ТУТ МОЖНО КОЕ-НТО 
ПОГОДУ? ОБЛАЧНОЙ ПОГОДЫ ВЫДЕЛИТЬ. 
ВСЕ РЕЗУЛЬТАТЫ 
ПОЛОЖИТЕЛЬНЫЕ. 


Данные р 


г В ТВ ы > Если мы сначала спросим 


про погоду, то в случае - : 
Высокая Средняя Низкая облачной погоды ДА, ОДНАКО 


(основываясь на данных] 
все результаты Будут НАДО ПОНЯТЬ, 
положительными. КАКОЕ ИМЕННО 
УСЛОВИЕ ВЛИЯЕТ 
НА РЕЗУЛЬТАТ, 


ЕСЛИ ВЫБЕРЕМ ТОЛЬКО ЯСНУЮ ПОГОДУ, А ЕСЛИ МЫ ВЫБЕРЕМ 
ДАННЫЕ БУДУТ ТАКИМИ: ДОЖДЬ, ПОСМОТРИМ, 
| ЧТО ПОЛУЧИТСЯ... 


Погода | Температура | Влажность Играем? Температура | Влажность | Ветер | Играем? 


Ясно Высокая Высокая Средняя Высокая Нет Да 


Ясно Высокая Высокая Низкая Стандартная | Нет Да 


Ясно Средняя Высокая Низкая Стандартная | Да Нет 


Ясно Низкая Стандартная Средняя Стандартная | Нет | Да 


Ясно Средняя Стандартная Средняя Высокая Да 


Д ЕСЛИ ТЕПЕРЬ СПРОСИТЬ и ЗНАНИТ, ЕСЛИ ДОЖАЬ, 
ПРО ВЛАЖНОСТЬ, ТО @СЕ ОТВЕТЫ БУДУТ НАДО СМОТРЕТЬ, 
“ДА”, ЕСЛИ ВЛАЖНОСТЬ СТАНДАРТНАЯ. ЕСТЬ ИЛИ НЕТ ВЕТЕР. 


Влажность 


Высокая Стандартная 


ИТАК... 

ПОДУМАЙ, КАК ЛУЧШЕ ВСЕГО 
НАИТЫ САМЫЙ Э9РФРЕКТИВНЫЙ 
ВОПРОС, КАК ПОГОДА, 

В ЭТОМ СЛУНАЕР 


Ах 


-®@- Погода? 
/ 1 < 


°С Температура? 


% Влажность? 


< Ветер? 
КЛЮЧЕВЫЕ СЛОВА 
8 ДАННОМ СЛУЧАЕ - 


НЕПРЕДСКА- 
ЗУЕМОСТЬ Ц 


ИТАК, ПО НТОГАМ РЕЗУЛЬТАТОВ 
ПОЛУЧАЕТСЯ ТАКОЕ 
РЕШАЮЩЕЕ ДЕРЕВО; 


ЕСТЬ Нет 


Нет Да 


ХОРОШИЙ 
ВОПРОС... 


КАЖЕТСЯ, НАДО СРАВНИТЬ 
НЧИСЛОВЫЕ ВЕЛИЧИНЫ, 
КОТОРЫЕ МОЖНО ОЦЕНИТЬ, 


ИМЕННО! ЕСЛИ МЫ 
ПЕРЕВЕДЕМ ПАРАМЕТРЫ 
В ЧИСЛА, ТО МОЖЕМ 
СДЕЛАТЬ СРАВНЕННЦЕ. 


ИНЗРОРМАЦИОННАЯ 
ЭНТРОПНЯ, 


НАЧНЕМ 
С НЕПРЕДСКАЗУЕМОСТИ. 
Непредсказуемость означает, что трудно 


определить заранее, какие элементы из набора 


данных дадут на выходе ответы «да» или у 
/ 
’ 


Набор данных 


Данные [1 


САМЫЙ ТРУДНЫЙ СЛУЧАИ - ДА... ИНЫМИ СЛОВАМИ, 
ЭТО КОГДА ПОЛОВИНА ОТВЕТОВ ИА ВСЕ ДАННЫЕ МОЖНО 
“ДА”, А ПОЛОВИНА - “НЕТ”, А КАКОЙ ОТНЕСТИ К ОДНОМУ 


ТОГАД САМЫЙ И ТОМУ ЖЕ КЛАССУ, 
ЛЕГКИЙ СЛУЧАИ? 


КОГДА ВСЕ ОТВЕТЫ ‘ДА’ 
ИЛИ ВСЕ ОТВЕТЫ “НЕТ”, 


ЗАТЕМ НДЕТ И 
ИНСРОРМАЦИОННДа ЭНТРОПЦНЯ, нформационная энтропия - это количество 


информации, определяемое вероятностью 
получения определенного результата 
(ДА или НЕТ) из набора данных. 


Набор данных 
Данные [1] 


ВЕРОЯТНОСТЬЮ 
ПОЛУЧЕНИЯ 
РЕЗУЛЬТАТА? 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


НАПРИМЕР, ЕСЛИ МЫ ПОЛУЧИЛИ ОТВЕТ “ДД” 
[3 НАБОРА ДАННЫХ, ГДЕ ВСЕ ДАННЫЕ - 
“ДА”, МЫ НЕ ПОЛУЧИЛИ НИКАКОЙ 
ИНОРОРМАЦНИ, 


А ЕСЛИ МЗ 14 ЭЛЕМЕНТОВ ДАННЫХ 
15 БУДУТ ‘ДА’, А ОДИН - “НЕТ”? 


/ СХ 

У НАС БУДЕТ 
ИНФРОРМАЦИЯ О ТОМ, 
НТО СЛУЧИЛОСЬ ЧТО-ТО 

НЕОБЫННОЕ, 


МОЖНО СКАЗАТЬ, ЧТО ИНЗРОРМАЦИОННАЯ ЭНТРОПИЯ 
ВЕЛИКА, ЕСЛИ ВЕРОЯТНОСТЬ КАКОГО-НИБУДЬ СОБЫТИЯ ЕЕ МОЖНО СЧИТАТЬ 
НИЗКАЯ, М НИЗКА, ЕСЛИ ВЕРОЯТНОСТЬ ЕГО ПОЯВЛЕНИЯ ВЕЛИЧИНОЙ, ОБРАТНОЙ 
высокАЯ. ВЕРОЯТНОСТИ. 


Если вероятность высокая „”, информационная энтропия низкая ``. 


Если вероятность низкая \\, ‚ информационная энтропия высокая „. 


АГА! ТО ЕСТЬ ЕСЛИ ПОЯВЛЯЕТСЯ КАКОЕ-ТО РЕДКОЕ СОБЫТИЕ, 
ТО ВЕРОЯТНОСТЬ НИЗКАЯ, А ИНЗРОРМАЦИОННАЯ ЭНТРОПИЯ СТАНОВИТСЯ БОЛЬШЕ! 


ДА... ЕСЛИ ВЫЧИСЛИТЬ ЛОГАРИСРМ 
ПО ОСНОВАНИЮ 2 ДЛЯ ВЕРОЯТНОСТИ, В ДВОНЧНОМ ВИДЕ - 
Т.Е. ОБРАТНОЙ ВЕЛИЧИНЫ ЭНТРОПЦИ, ЭТО В ВНДЕ БИТОВ, 

МОЖНО УЗНАТЬ КОЛИЧЕСТВО ЦИеРР, КАК В КОМПЬЮТЕРЕ? 
НЕОБХОДИМОЕ ДЛЯ ПРЕДСТАВЛЕНИЯ 
ЭТОМ ИНСРОРМАЦИИ В ДАВОИЧНОМ 


А ТЕПЕРЬ РАССМОТРИМ <РОРМУЛУ 
м НЕПРЕДСКАЗУЕМОСТИ ДАННЫХ. 


ооо ооо ооо ооо ооо = ЕЕ Можно НАЙТИ, 
ЕСЛИ МЫ СЛОЖИМ ПРОИЗВЕДЕНИЯ 
ИНЗРОРМАЦИОННОЙ ЭНТРОПИИ 
КАЖДОГО КЛАССА И СООТНОШЕНИЕ 
КАЖДОГО КЛАССА С ОБЩИМИ 
ДАННЫМИ, и ЗАПИСАТЬ СЛЕДУЮЩЕЙ 
<РОРМУЛОИЙ: 


ЕО) = —Рда082Рда — Рне 108 Рнет 


КОГДА МЫ ЗАДДЕМ ВОПРОС, МОЖНО ОПРЕДЕЛИТЬ 
ТО ДАННЫЕ ВЕДЬ МОЖНО РАЗДЕЛИТЬ — ЗНАЧЕНИЕ СНИЖЕНИЯ НЕПРЕДСКАЗУЕМОСТИ 


8 ЗАВИСИМОСТИ ОТ ОТВЕТА? ЗАТЕМ — КАК ЗНАЧЕНИЕ ИНСРОРМАЦИОННОГО ВЫИГРЫША, 
МОЖНО НАИТИ НЕПРЕДСКАЗУЕМОСТЬ Ц ТАМ, ГДЕ ЭТО ЗНАЧЕНИЕ ВЫШЕ ВСЕГО, 


ПО <РОРМУЛЕ, КОТОРАЯ НАХОДИТСЯ ВОПРОС, КОТОРЫЙ ПОМОЖЕТ 
ПРИВЕДЕНА ВЫШЕ. УМЕНЬШИТЬ ВЕРОЯТНОСТЬ 
РАЗНЫХ ОТВЕТОВ. 


А ТЕПЕРЬ РАССЧИТАЕМ 
НАШИ ДАННЫЕ ПО ГОЛЬФРУ! 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


Следуя шагам 1-5, рассчитаем непредсказуемость и соотношение при- 
роста информации в данных для гольфа. 


Так как в наборе данных ДР ответов «да» 9, а ответов «нет» - 5, то рассчитаем непред- 
сказуемость по формуле ниже. 


9 о 
Е(Р) = -Э1о 102.2 =-0.643х (0.637) — 0.357 х (-1.495) = 0.94. 
(2) 14 8214 14 8214 


(шь? | 
15| 


айдем непредсказуемость данных соответственно для ясной погоды, облачной 
и дождя. 


Е(ясно) = во Бюво; = 0.4х (1.32) — 0.6х (0.74) = 0.971. 


4 4 0 0 
Е(облачно) = -*]ю 105 =0-0=0. 
( ) ит 


Е(дождь) = 31083 - 2108,2 = —0.6х (-0.74) — 0.4х (1.32) = 0.971. 
м | 


Возьмем эти величины в качестве весов к данным и рассчитаем непредсказуемость 
после разделения. 


5 х0.971 + 4 хо+ 4 х0.971 = 0.694. 
14 14 14 


2.4. КЛАССИФИКАЦИЯ ПО РЕШАЮЩЕМУ ДЕРЕВУ 


Вычтя из непредсказуемости изначальных данных величину непредсказуемости 
данных после разделения, найдем отношение информационного выигрыша к внут- 
ренней информации, или же Саш. 


Сащ(, погода) = 0.94 - 0.694 = 0.246. 


(ль. 


Таким же методом рассчитаем информационный выигрыш для других данных. 
Саш(О, температура) = 0.029. 

Саш(О, влажность) = 0.151. 

Саш(, ветер) = 0.048. 


Следовательно, если первым вопросом для деления данных должен стать вопрос 
о погоде, непредсказуемость будет самой большой, а потом будет уменьшаться. Пос- 
ты разделения данных можно использовать оставшиеся признаки в том же порядке. 


В качестве метода расчета непредсказуемости данных вместо выше- 
указанного способа можно воспользоваться коэффициентом Джини. 


Стр) =1-Рл.-Рна 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


ТАК МОЖНО 
НЧИСЛЕННО СРАВНИТЬ 


ВЕЛИЧИНЫ Э<РФРЕКТИВНЫХ 
ВОПРОСОВ? В ОСНОВЕ МЕТОДА, 


КОТОРЫМ МЫ СЕГОДНЯ ПОЛЬЗОВАЛИСЬ, 
ЛЕЖИТ “БРИТВА ОККАМА", КОТОРАЯ ГЛАСИТ: 
“ВЫБИРАЙ САМУЮ ПРОСТУЮ ГИПОТЕЗУ 
ДЛЯ ПРИМЕНЕНИЯ К ДАННЫМ”, 


БРИДВИ 


САМУЮ ПРОСТУЮ? 


ЕСЛИ ГИПОТЕЗА СЛИШКОМ СЛОЖНАЯ, ТО ПОЛУЧЕННЫЕ ОДНАКО ЕСЛИ, 
ДАННЫЕ МОЖНО ОБЪЯСНИТЬ СЛУЧАЙНОСТЬЮ, СЛЕДУЯ ЭТОМУ МЕТОДУ, 
НЕ ТАК ЛИ? А ЕСЛИ ОНА ПРОСТАЯ, ТО ВЕРОЯТНОСТЬ ПОСТРОИТЬ РЕШАЮЩЕЕ 
СЛУЧАЙНОГО ОБЪЯСНЕНИЯ ДАННЫХ ПАДДЕТ. ДЕРЕВО, В КОТОРОМ 
НЕ БУДЕТ ОШИБОК, 
ТО МОЖНО ДОБИТЬСЯ 


ПЕРЕОБУЧЕНИЯ - 


3 КОГДА ДЕРЕВО 
== БУДЕТ СЛИШКОМ 
| ) } ( ХОРОШО ПОДХОДИТЬ 


К ДАННЫМ 
Простая (короткая) гипотеза — Сложная (длинная) гипотеза дла ОБУЧЕННА, 


ПЕРЕ- 
ТЫ ХОЧЕШЬ СКАЗАТЬ, : ОБУЧЕННИЯР 
ЧТО ЕСЛИ МЫ ПРИ ОБУЧЕНИИ ПОЛУЧИЛИ 
НЕБОЛЬШОЕ РЕШАЮЩЕЕ ДЕРЕВО, ТО ОНО 
И БУДЕТ ИСПОЛЬЗОВАТЬСЯ ДАЛЬШЕ? 


ЕСЛИ МЫ СМОГЛИ ПРОВЕСТИ ОБУЧЕНИЕ ^^ 
НЕБОЛЬШОГО ДЕРЕВА, ПОСТРОЕННОГО С УЧЕТОМ 
103-АЛГОРИТМА, ТО ВЕРОЯТНОСТЬ СЛУНЧАННОСТЕЙ 

БУДЕТ СНИЖЕНА, ДРУГИМИ СЛОВАМИ, СЛУЧАЙНОСТИ 

НЕ БУДЕТ, БУДЕТ ЗАКОНОМЕРНОСТЬ. 


ПОСКОЛЬКУ МОДЕЛЬ СЛИШКОМ 


ХОРОШО ОБЪЯСНЯЕТ ДАННЫЕ ДЛЯ 
ОБУЧЕНИЯ, ПРИ ВВОДЕ НОВЫХ ЧТОБЫ СПРАВИТЬСЯ С ПЕРЕОБУЧЕННЕЛ, 


ДАННЫХ ПРАВИЛЬНЫЕ ЗНАЧЕНЦА МОЖНО ЛИБО ИЗНАЧАЛЬНО ОГРАНИЧИТЬ 
НЕ ПОЛУЧАТСЯ. ТОЛЩИНУ ДЕРЕВА, ЛИБО ЖЕ 
ПОСЛЕ ОБУЧЕНИЯ ОБРЕЗАТЬ ВЕТВН. 


ХМ, Я НЕ ОБРАЩАЛ 
внимания, 


ДО ЭТОГО МЫ СТРОИЛИ РЕШАЮЩЕЕ ДЕРЕВО, 
КЛАССИФРИЦИРУЯ ПО КАТЕГОРИЯМ, АД В СЛУЧАЕ ЧИСЛЕННЫХ МОЖНО РАЗДЕЛЯТЬ 
ПРИЗНАКОВ ПОПРОБУЕМ ОБУНЧИТЬ ДЕРЕВО ПО МОДЕЛИ И НИСЛЕННЫЕ ПРИЗНАКИ, 
ДИСКРЕТИЗАЦИИ, КОТОРАЯ РАЗДЕЛЯЕТ РЯДЫ 
НИСЛОВЫХ ЗНАЧЕНИЙ НА НЕСКОЛЬКО ГРУПП, 


Классификация по категориям Классификация по численным признакам 


Погода _| Температура | Влажность _| Ветер | Играем: ГО | Радиус | Текстура | Окружность | Опухоль 

Ясно Высокая Высокая Нет 44 | 13.17 21.81 85.42 Злокачественная 
Ясно Высокая Высокая Да 45 | 18.65 17.60 123.7 Злокачественная 
Облачно | Высокая Высокая Нет Да 46 |8.20 16.84 51.71 Доброкачественаая 
Дождь Средняя Высокая Нет Да 47 | 13.17 18.66 85.98 Злокачественная 
Дождь Низкая Стандартная | Нет Да 48 | 12.02 14.63 78.04 Доброкачественаая 


ПОСКОЛЬКУ МЫ ХОТИМ НАЙТИ МЕСТА, 
ГДЕ НЕПРЕДСКАЗУЕМОСТЬ НИЗКАЯ, 
МЫ НЕ РАЗДЕЛЯЕМ ОДИНАКОВЫЕ 


КЛАССЫ. СТРЕЛКОН НА РИСУНКЕ. ЭТО ПОГРАНИЧНОЕ 


ЗНАНЕНИЕ БУДЕТ СРЕДНИМ ОТ ЗНАЧЕНИИ 
ДО И ПОСЛЕ НЕГО. 


эн дж 
— 
— 

в 


‚> 

СР нинииииииий 
> 

чь) 

| 


ВЫБЕРЕМ МЕСТО, ГДЕ НАНБОЛЕЕ ВЫСОК 
ИНРОРМАЦИОННЫЙ ВЫИГРЫШ, ВЫПОЛНЯЯ 

ТЕ ЖЕ ВЫЧИСЛЕНИЯ, ЧТО И В СЛУЧДЕ КАТЕГОРИИ, 
МЫ ОБНАРУЖИМ, ЧТО ПРИ РАЗДЕЛЕНИИ С ПОРОГОМ 
9. инсРОРМАЦИОННЫЙ ВЫИГРЫШ 
НАИБОЛЕЕ ВЫСОК. 


Попробуем построить модель логистической классификации и ре- 
шающее дерево. 


В качестве данных возьмем обучающую выборку Бгеа${ _сапсег, кото- 
рая показывает, доброкачественная или злокачественная опухоль. 


В эсШИНеаги и для регрессии, и для классификации используются в 
основном экземпляры класса, и обучение ведется путем метода #. 
Сначала - логистическая классификация. 


Находим те же коэффициенты, что и при регрессии. 


2.4. КЛАССИФИКАЦИЯ ПО РЕШАЮЩЕМУ ДЕРЕВУ 


меап гад\и$ о 10.0 


пмеап фехеиге о бы 
меап реглмефег : -0.06 
мог5{ сопсауе ро1п5 : -0.65 
мог5{ зуттеегу : -0.69 


мог${ РГгасфа| ЧАтеп$\оп: -0.11 


Некоторые коэффициенты, имеющие большие положительные значе- 
ния, влияют на положительный результат. Большие отрицательные 
значения влияют на отрицательный результат. Строим решающее де- 
рево тем же методом, что и раньше. 


с1Е2 = ОБес1$1опТгееСТа$$1Р1 ег(тах_дерЕВ=2) 
ет тть «ОЖ, 5) 


В результате получится вот такое дерево. На вершине окажется пара- 
метр, показывающий средний радиус опухоли. Здесь происходит деле- 
ние данных по этому параметру, радиус больше или меньше 16.795. Ес- 
ли он меньше, то дальше деление происходит по параметру «вмяти- 
ны», и если он меньше 0.136, то опухоль доброкачественная, а если 
больше, то злокачественная. С другой стороны, если средний радиус 
опухоли больше, чем 16.795, то далее разделение происходит по пара- 
метру «текстура», и если он меньше 16.11, то опухоль доброкачествен- 
ная, а если больше - то злокачественная. 


мог${ гаЧ\и$ < 16.795 
9111=0.468 
сатр\е$=569 

уа\ие= [212,357] 
СТаз5=Беп\дп 


мог5{ сопсауе ро1п{$ < 0.136 меап Фехфиге < 16.11 
9111=0.159 9111=0.109 
замр\е$=379 затр\е$=190 

уа\ие= [33,346] уа\ие= [179,11] 
сТа$$=Беп\дп СТа$$=маЛдпапе 


9111=0.03 9111=0.476 9111=0.498 9111=0.023 
сатр\е$=333 затр\е$=46 затр\е$=17 замр1е$=173 

уа\ие= [5,328] уа\ие= [28,18] уа\ие= [8,9] уа\ше= [171,2] 

СТаз5=Беп1дп сТа$$=ма1дпапе СТазз=Беп\дп СТа$$=маЛдпапе 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


НАДО СДЕРЖИВАТЬСЯ! 


ТАК, О КЛАССИФРИКАЦИИ 
МЫ ПОГОВОРИЛИ, А ЗАТЕМ 
ИДЕТ ОЦЕНКА.. 


Я ДУМАЮ, Я САМ СМОГУ ИСПРАВИТЬ 
ДАННЫЕ И ПОСТРОИТЬ РЕШАЮЩЕЕ 
ДЕРЕВО, Я НЕ ПРОГРАММИСТ, 

НО НАИДУ КОГО-НИБУДЬ... 


ХМ... 
ВРОДЕ ВСЕ 
БЫЛО В ПОРЯДКЕ, 
КОГАД 
Я ОБЪЯСНЯЛА, 


Подставка для счета 


Отдел здравоохранения 
и благосостояния 


РАЗРАБОТЧИК ИГР? 


ОН НЕМНОГО ЛЕГКОМЫСЛЕННО 
ОТНОСИТСЯ К РАБОЧИМ 
ОБЯЗАННОСТЯМ, И ГОВОРЯТ, 
ЧТО ОН РАЗРАБАТЫВАЕТ ИГРЫ 
ПРЯМО НА РАБОТЕ... 


НИЧЕГО СЕБЕ ЧЕЛОВЕК. 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


СПАСИБО 
ЗА ИНФРОРМАЦИЮ! 


ОН НАВЕРНЯКА ТУТ. 


Отдел поддержки 
оборудования 


ПРОСТИТЕ! Я КИЁХАРА 
13 ОТДЕЛА ЗДАРАВООХРАНЕННЯ, 
КУДЗЁ-САН, ВЫ ТУТ? 


Я - КУДЗЁ, 
ЧТО НАДО? 


ЧТО ВЫ ХОРОШО ПРОГРАММИРУЕТЕ, 
И ХОТЕЛ ПОПРОСИТЬ КОЕ О НЕМ... 


КОЕ О ЧЕМ?. 
ПРОГРАММУ ДЛЯ ОТДЕЛА ЗАРАВООХРАНЕНИЯ 
НАПИСАТЬ, ЧТО ЛИ? 


2.4. КЛАССИФИКАЦИЯ ПО РЕШАЮЩЕМУ ДЕРЕВУ 


ОНЕНЬ УЖ 
ОН СУРОВЫИ... 


НУ, 
НА САМОМ 


ТЫ Ж ИНУЗРОРМАТИКЕ УЧИЛСЯ 
В УНИВЕРСИТЕТЕ, ПРАВДА? 
А ПРОГРАММУ НАПИСАТЬ 
НЕ МОЖЕШЬ. 


Д-ДА.. НЕ МОГУ, 


ДЛЯ МЕНЯ ЭТО ОЧЕНЬ ТРУДНО, 
ДЕНСТВИТЕЛЬНО, ИЗВИНИТЕ, 
ЧТО ОТВЛЕК ОТ РАБОТЫ, 


НЕ ЛЮБЛЮ, ПОТОМУ ЧТО 
ЭТО СЛИШКОМ ПРОСТО. 


ЛАДНО, 
СДЕЛАЮ! 


ЗА ЭТО УГОСТИШЬ МЕНЯ ГДЕ-НИБУДЬ, УГОВОР? 


УРА-А! МОЖЕТ БЫТЬ, 
Ц САЙТ ПОЛУЧИТСЯ СДЕЛАТЬ! 


‘делить’ вид 
Инт работе-. 
Может, кормить. бут. 


В кабинете у Саяка (3) 


Математическое повторение (2) 


Именно! Он меня, видимо, за сэмпая не держит! 


О чем сегодня поговорим? Было что-то непонятное? 


е? А, е в сигмоидной функции? Это число Непера, которое ис- 
пользуется для основания натуральных логарифмов. Это беско- 
нечная дробь, которая равняется 2.71828. 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


При дифференцировании функции е” получается е”, а при 
дифференцировании 102е` получается 1/х, поэтому это очень 
удобная штука. На самом деле должно быть наоборот, е - это 
число, которое обладает таким свойством. 


У... Тебя не проведешь! Давай расскажу! 


Если в функции ошибки Е()) изменить величину веса модели 
и, значение тоже изменится. Так как существует несколько ве- 
сов, то функция ошибки становится функцией нескольких пе- 
ременных. Если мы выразим сумму весов в виде вектора, то 
в функции ошибки появляется аргумент в виде вектора. 


В КАБИНЕТЕ У САЯКА (3). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (2) 
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А теперь найдем частную производную по вектору. д (закруг- 
ленная 4) - это обозначение дифференцирования по одной из 


}5) 
переменных. Например, в формуле —— 9 означает, что в фор- 


9ио 


муле Е нужно найти производную по переменной иж. 


УЕ 


_9Е [9Е Е  9Е\" 
д» |9’ ди’ ди | ^ 


Именно. Это так называемый вектор градиента. 


Да. Как на картинке на стр. 54. Текущий вес обозначается точ- 
кой на склоне, и если спускаться в обратном направлении (вниз 
по склону), то можно немного приблизиться к минимуму 
функции ошибки. 


Я волнуюсь за него. Он же сбежал на полпути... 


ГЛАВА 2. КАК ДЕЛАТЬ КЛАССИФИКАЦИЮ? 


3 
ОЦЕНКА РЕЗУЛЬТАТОВ 


Ск —— 
/57) 


А? ДВЕРЬ 
ОТКРЬТАД... 


НТО-ТО ОНА КАК-ТО 
ПЛОХО ПРИКРЫВАЕТ 


ГЛАВА 3. ОЦЕНКА РЕЗУЛЬТАТОВ 


ДА ТЫ МЕНЯ ОПЯТЬ НАПУГАЛ! 


Я ЖЕ ПРОСИЛА ПОТИШЕ, 
НО ЭТО СЛИШКОМ ТИХО! 


ИЗВИНИТЕ... 


ЧТО СЛУЧИЛОСЬ? 
Я ТРИ МЕСЯЦА ПОСЛЕ РЕСТОРАНА 
ТЕБЯ НЕ ВИДЕЛА, ДУМАЛА, 
ВСЕ ХОРОШО, 


Я НАШЕЛ ПРОГРАММИСТА, 

Н ВМЕСТЕ МЫ СДЕЛАЛИ 

САЙТ С ИСПОЛЬЗОВАНИЕМ 
РЕШАЮЩЕГО 

ДЕРЕВА, КОТОРЫЙ 

С ВЕРОЯТНОСТЬЮ 100 % 
ОПРЕДЕЛЯЕТ СТЕПЕНЬ РИСКА 
ЗАБОЛЕВАНИЯ ДИДБЕТОМ. 


УЖЕ ТРОЕ ЛЮДЕЙ 
НЕ М3 ГРУППЫ РИСКА 
ПРОДОЛЖИЛИ ВЕСТИ 
ОБЫЧНЫЙ ОБРАЗ ЖИЗНИ 
И ОКАЗАЛИСЬ С ДИДЕЕТОМ. 


А ТЕ, КТО БЫЛ В ГРУППЕ 
РИСКА, ИДУТ В БОЛЬНИЦУ, 
И ИМ ГОВОРЯТ, ЧТО ВСЕ 
: НОРМАЛЬНО. 
НО НА САЧТ МНОГО ЖАЛУЮТСЯ, 


ПОЧЕМУ ВЕРОЯТНОСТЬ о 
ПРАВИЛЬНОГО ОТВЕТА СТОПРОЦЕНТНАЯ, || = Я ТОЛЬКО НДСТРОЦЛ ДАННЫЕ, |. 
ДА КЛАССИФРИКАЦИЯ ВСЕ РАВНО ВЫДДЕТ || — КАК ТЫ Ц ПРОСЦА, М САМ НИЧЕГО / о 


ОШИБКИ? Я ПОСОВЕТОВАЛСЯ о НЕ ПОНМАЮю.. о 
А и и 


СОВСЕМ НЕ МОГУ пОНатЬь, КНЁХАРА-КУН, А ТЫ ПРОВОДИЛ 
В ЧЕМ ДЕЛО и ГДЕ а ошивса. || ОЦЕНКУ ТЕСТОВЫХ ДАННЫХ 
р о В КЛАССИОРИКАТОРЕ? 


` 


100%-НАЯ 
ВЕРОЯТНОСТЬ, 


ОЦЕНКУ ТЕСТОВЫХ : МАШИННЫМ ОБУЧЕНИЕМ, 
ДАННЫХ? ЕСЛИ ТЕСТОВЫЕ ДАННЫЕ 
НЕ ПРОВЕРЯЮТСЯ 
НА ДРУГИХ УСЛОВИЯХ. 


ВОТ И ПРИЧИНА.., 


ГЛАВА 3. ОЦЕНКА РЕЗУЛЬТАТОВ 


НАДО БЫЛО ТЕБЕ РАССКАЗАТЬ 
ОБ ОЦЕНКЕ ТЕСТОВЫХ ДАННЫХ... 
ЭТО МОЯ ВИНА.., 


«1 


НЕТ-НЕТ, ЭТО НЕ ВАША ВИНА, 
А МОЯ. 


У ТЕБЯ ЕСТЬ ВРЕМЯ, 
КНЁХАРА-КУН? 


Я РАССКАЖУ 
ТЕБЕ ОБ ЭТОМ. 


НО ЕСЛИ В ДАННЫХ ДЛЯ ОБУЧЕНИЯ 


ВЫСОКАЯ ВЕРОЯТНОСТЬ 
ПРАВИЛЬНОГО ОТВЕТА, 
ТО В ЭТОМ НЕТ СМЫСЛА. 


ГОВОРИШЬ, КЛАССИФРИКАТОР 
С ТОЧНОСТЬЮ 100 %2 


ДА, ЕСЛИ ВЕРИТЬ ДАННЫМ 
ДЛЯ ОБУЧЕННЯ. 


МОЖНО ПОСТРОИТЬ ДЕРЕВО 
С ТОЧНОСТЬЮ РЕШЕНИЙ В 10О % 
В СЛУЧАЕ, ЕСЛИ НЕТ ОГРАНИНЕНИЙ 


НА РАЗМЕР ДЕРЕВА И ЕСЛИ НЕТ 
ПРОТИВОРЕЧИЯ В ДАННЫХ, 
ТО ЕСТЬ КОГДА ОДИНАКОВЫЕ 
ПРИЗНАКОВЫЕ ОПИСАНИЯ 
ОТНЕСЕНЫ К РАЗНЫМ КЛАССАМ. 


к (| 


НО ЕСЛИ ПРИ ИСПОЛЬЗОВАНИИ ДАННЫХ о 
ИЗ ОБУЧАЮЩЕЙ ВЫБОРКИ ТОЧНОСТЬ РЕШЕНИЯ 4 
10О %, ТО ПОЧЕМУ ЭТО ПЛОХО? 


В ТАКИХ СИСТЕМАХ, 
ЕСЛИ В ДАННЫХ ДЛЯ ОБУЧЕНИЯ 
ВСЕ ЧЕТКО НАСТРОЕНО, ВЕЛИКА 
ВЕРОЯТНОСТЬ ТОГО, ЧТО НОВЫЕ ДАННЫЕ 
БУДУТ ИНТЕРПРЕТНРОВАТЬСЯ 
НЕПРАВИЛЬНО? 


ГЛАВА 3. ОЦЕНКА РЕЗУЛЬТАТОВ 


ПРЕЖДЕ ВСЕГО НАДО ОЦЕНИТЬХ 
Э$РФРЕКТИВНОСТЬ ИСПОЛЬЗУЕМЫХ 
ДАННЫХ. ДЛЯ ЭТОГО САМЫЙ 
ПРОСТОИ СПОСОБ - ЭТО 


АЗДЕЛИТЬ ИХ НА... == 


ТЕСТОВУЮ 
ВЫБОРКУ 


ВЫБОРКУ 
длЯ ОБУЧЕНИЯ 


„ДВЕ ЧАСТИ, 


Е — А ЭТО ПРОБЛЕМА 
РАЗДЕЛИТЬ - ДАННОГО МЕТОДА. 


ЕСЛИ ДАННЫХ МАЛО, ТО МОЖНО 
УМЕНЬШИТЬ ОБУНЧАЮЩУЮ ВЫБОРКУ, 
ТЕСТОВАЯ, _ | ТОГДА, ВЕРОЯТНО, Э9РРЕКТИВНОСТЬ 


ВРЕОРЕА РЕ ОБУЧЕНИЯ СНИЗНТСЯ. 


МЫ ИСПОЛЬЗУЕМ МЕТОД ПРОВЕРКИ 
НА ЗАРЕЗЕРВИРОВАННЫХ ДАННЫХ, 
ПРИ КОТОРОМ ДОЛЯ ПРАВИЛЬНЫХ ОТВЕТОВ 
ОЦЕНИВАЕТСЯ НА ТЕСТОВОМ ВЫБОРКЕ, ДАННЫЕ НО КОЛИЧЕСТВО ТЕСТОВЫХ 
(5 КОТОРОН НЕ ИСПОЛЬЗОВАЛИСЬ В ПРОЦЕССЕ ДАННЫХ ЛУЧШЕ НЕ УМЕНЬШАТЬ? 
ОБУЧЕНИЯ. ТАК МОЖНО ВОССОЗДАТЬ УСЛОВНЯ, . 
КОТОРЫЕ ВСТРЕТЯТСЯ НА НЕИЗВЕСТНЫХ 
ДАННЫХ, 


А ЧТО, ЕСЛИ ДАННЫХ МАЛО? 


5% Е 


3.2. ОБУЧАЮЩАЯ, ТЕСТОВАЯ И КОНТРОЛЬНАЯ ВЫБОРКИ 


ЕСЛИ НЕЛЬЗЯ ПОЛУЧИТЬ 
ДОСТАТОЧНО НЕНЗВЕСТНЫХ 
ДАННЫХ, ТО И ТЕСТИРОВАНИЕ 
НЕВОЗМОЖНО? 


ЕСЛИ ИХ НЕ ХВАТАЕТ... 
Я ОБ ЭТОМ. 


У НАС ЕСТЬ ГИПЕРПАРАЛМЕТР, 


ТАК... ТОЛЬКО В СЛУЧАЕ, 
ЕСЛИ ЕСТЬ ДОСТАТОЧНО ДАННЫХ 
И ДЛЯ ОБУНЕНИЯ, И ДЛЯ ТЕСТОВОЙ ВЫБОРКИ, 
МОЖНО ИСПОЛЬЗОВАТЬ ЭТОТ МЕТОД. 


НО ДАЖЕ ЕСЛИ ДАННЫХ 
ДОСТАТОЧНО, ТО НЕ ВСЕГДА 
ЭТО ХОРОШИЙ МЕТОД. 


КОТОРЫЙ ВЛИЯЕТ НА РЕЗУЛЬТАТЫ ОБУЧЕНИЯ? НУЖНА ПРОВЕРКА АДЕКВАТНОСТИ 
ВЕС ДОПОЛНИТЕЛЬНОГО ЧЛЕНА ПРИ ЛИНЕИЙНОЙ — ВЕЛИЧИНЫ ГИПЕРПАРАМЕТРА, КОТОРЫЙ 


РЕГРЕССИИ ИЛИ ЖЕ ТОЛЩИНА ДЕРЕВА 


ИСПОЛЬЗУЕТСЯ ПРИ ОБУЧЕНИИ, 


ПРИ ПОСТРОЕНИИ РЕШАЮЩЕГО ДЕРЕВА? 


ЕСЛИ ИСПОЛЬЗОВАТЬ ТЕСТОВУЮ ВЫБОРКУ 

ДЛЯ ОЦЕНКИ, ТО ДАННЫЕ ИЗ ТЕСТОВОЙ 

ВЫБОРКИ НЕ СМОГУТ РАССМАТРИВАТЬСЯ 
КАК НЕИЗВЕСТНЫЕ ДАННЫЕ. 


МЕТОД ПРОВЕРКИ НА ЗАРЕЗЕРВИРОВАННЫХ ДАННЫХ 
ДЛЯ ОЦЕНКИ ЭФРФРЕКТИВНОСТИ ЗАКЛЮЧАЕТСЯ В ТОМ, 


ЧТО ДАННЫЕ ДЕЛЯТ НА ТРИ ГРУППЫ 


—- ОБУЧАЮЩУЮ, 


ТЕСТОВУЮ И КОНТРОЛЬНУЮ ВЫБОРКИ, 


А ЧТОБЫ ДЕЛИТЬ ДАННЫЕ - 

НА ТРИ ЧАСТИ, ИХ ДОЛЖНО С МЕТОДОМ ПРОВЕРКИ НА ЗАРЕЗЕРВИРО- 

БЫТЬ МНОГО? А] ВАННЫХ ДАННЫХ ЕЕ ОБЪЕДИНЯЕТ ДЕЛЕНИЕ 
А: | ДАННЫХ НА ВЫБОРКУ ДЛЯ ОБУЧЕНИЯ 

КОГАА ДАННЫХ МАЛО, ИСПОЛЬЗУЕТСЯ №: | Ч ТЕСТОВУЮ ВЫБОРКУ, ОДНАКО СУТЬ В ТОМ, 

МЕТОД ПЕРЕКРЕСТНОЙ ПРОВЕРКИ :: 1] ЧТО ВСЕ ДАННЫЕ ИСПОЛЬЗУЮТСЯ 

(КРОСС-ВАЛИДАЦНИ>. | © КАЧЕСТВЕ ТЕСТОВОЦ ВЫБОРКИ, 


ВСЕ ДАННЫЕ? 
ЭТО КАК? 


Доля правильно ПРЕДСТАВИМ, ЧТО ДАННЫЕ дЕЛатса, 
классифицированных КДК НА КАРТИНКЕ, НА ТЕСТОВЫЕ БЛОКИ. 
объектов1 дла них ОБЫЧНО БЕРЕТСЯ 
10 % ДАННЫХ, 
Доля правильно ОБучающая 
[ | [ р классифицированных выборка 
объектов 2 
Доля правильно Г] 
классифицированных тестовая 
[ [ [ Е выборка ПОЧЕМУ 1О %Р 
Доля правильно Г] 
объектов 4 
Среднее 
Доля правильно 
[ [ [ | Кпасоифищированны ОИС = 
объектов 5 о г 


ЕСЛИ ДАННЫЕ ДЕЛЯТСЯ НА 1О НАСТЕИ, 

ТО СИСТЕМА ИСПОЛЬЗУЕТ ЯО % ДЛЯ ОБУЧЕНИЯ, А ВСЕ ДАННЫЕ 
ДЛЯ ТЕСТИРОВАНИЯ. ЭЧРФРЕКТИВНОСТЬ ОБУНЕНИЯ В ТАКОЙ 
МОДЕЛИ БЛИЗКА К ВЕРХНЕМУ ПРЕДЕЛУ, ТАК КАК ТЕСТИРОВАНИЕ 
ПРОНЗВОДИТСЯ ДАННЫМИ, МАКСИМАЛЬНО ПРИБЛИЖЕННЫМИ 
К РАСПРЕДЕЛЕНИЮ НЕИЗВЕСТНЫХ ДАННЫХ, 


3.3. МЕТОД ПЕРЕКРЕСТНОЙ ПРОВЕРКИ (КРОСС-ВАЛИДАЦИИ) 


МЕТОД, ПРИ КОТОРОМ ДЛЯ ОЦЕНКИ 
ИСПОЛЬЗУЕТСЯ ОДИН БЛОК ДАННЫХ, 
НАЗЫВДЕТСЯ КОНТРОЛЕМ ПО ОТДЕЛЬНЫМ 
ОБЪЕКТАМ. 


ПРИ ИСПОЛЬЗОВАНИИ ЭТОГО МЕТОДА 
ОЦЕНКА Э<$РФРЕКТИВНОСТИ МОЖЕТ 
ЗАНЯТЬ НЕКОТОРОЕ ВРЕМЯ, 
ЕСЛИ КОЛИЧЕСТВО ТЕСТОВЫХ БЛОКОВ 
т ВЕЛИКО, 


ОДНАКО ПОСКОЛЬКУ МЕТОД ПЕРЕКРЕСТНОЙ 
ПРОВЕРКИ ИСПОЛЬЗУЕТСЯ, КОГДА ДАННЫХ 
НЕ ТАК УЖ И МНОГО и КОГДА ХВАТАЕТ ОДНОГО 
РАУНДА ДЛЯ ОЦЕНКИ, ТО ЕМУ МОЖНО ДОВЕРЯТЬ, 
КОНТРОЛЬ ПО ОТДЕЛЬНЫМ ЭЛЕМЕНТАМ ТОЖЕ 
МОЖНО ИСПОЛЬЗОВАТЬ, ЕСЛИ ТАСОВАТЬ 
<РРАГМЕНТЫ И ПРОДЕЛАТЬ ПРОВЕРКУ 
НЕСКОЛЬКО РАЗ. 


А РАЗВЕ У КРОСС-ВАЛИДАЦИИ 
НЕТ НЕДОСТАТКОВ? 


А ЕСЛИ ЭТО ЧИСЛО т 
СЛИШКОМ НИЗКОЕ, ТО СИСТЕМА 
НЕ СМОЖЕТ ОБУЧИТЬСЯ. 


А ТЕПЕРЬ РАССМОТРИМ 
ЭТИ МЕТОДЫ ОЦЕНКИ 
В ДЕТАЛЯХ, С ЧИСЛОВЫЬМи 
ВЕЛИЧИНАЛИ. 


34. ДОЛЯ ПРАВИЛЬНО ПРЕДСКАЗАННЫХ Ее 
ОБЪЕКТОВ, ТОЧНОСТЬ, о И Е-МЕРА ! для постоты 


ое а а || Коза роте на : РАССМОТРИМ 

МЕТОД ОЦЕНКИ, 
ПРИ КОТОРОМ ДАННЫЕ РАЗДЕЛЕНЫ 
НА ДВА КЛАССА. ДОПУСТИМ, У НАС ВОПРОСЫ 
ТАКОГО ПЛАНД; ЕСТЬ БОЛЕЗНЬ ИЛИ НЕТ, 
СПАМ ПИСЬМО ИЛИ НЕ СПАМ. 
ДАННЫЕ, КОТОРЫЕ ПОДХОДЯТ, 
БУДУТ НАЗЫВАТЬСЯ ИСТИННЫМИ ПРИМЕРАМИ, 
А КОТОРЫЕ НЕ ПОДХОДЯТ - ЛОЖНЫМИ, 


ДО ЭТОГО 
МЫ ИСПОЛЬЗОВАЛИ ПОКАЗАТЕЛЬ 
КОЛИЧЕСТВА ПРАВИЛЬНО ОЦЕНЕННЫХ 
ОБЪЕКТОВ ДЛЯ ПРИМЕРНОЙ ОЦЕНКИ 
ТОЧНОСТИ, НО ОН ОСНОВЫВДЕТСЯ НА 
КОЛИЧЕСТВЕ ПРАВИЛЬНО РАСПРЕДЕ- 
ЛЕННЫХ ПО КЛАССАМ ДАННЫХ 
В ТЕСТОВОЙ ВЫБОРКЕ. 


А ТЕПЕРЬ РАССМОТРИМ 
НУТЬ-НУТЬ ПОДРОБНЕЕ 
МЕТОДЫ ОЦЕНКИ 
\ Э<Р-РЕКТИВНОСТИ САМОЙ 

В КЛАССИФРИКАЦИИ, 


ТО ЕСТЬ СПАМ У НАС - ИСТИННЫЙР 


НЕМНОГО СТРАННО, ДА, 
НО БУДЕМ ОСНОВЬЫВАТЬСЯ НА ТОМ, 
ПОДХОДИТ НАМ РЕЗУЛЬТАТ ИЛИ НЕТ, ПОЭТОМУ 
РАЗДЕЛИМ ИХ НА ИСТИННЫЕ И ЛОЖНЫЕ. 


ЕСЛИ МЫ ОБЪЕДИНИМ ИСТИННЫЙ 
КЛАСС, РАЗДЕЛЕННЫЙ НА ИСТИННОЕ 
“ДА” И ИСТИННОЕ “НЕТ”, С ПРЕДСКА- 
ЗАННЫМ КЛАССОМ, КОТОРЫЙ ТОЖЕ 
РАЗДЕЛЕН НА “ДД” ц “НЕТ”, 


ТО ПОЛУЧИМ ЧЕТЫРЕ ГРУППЫ. 
УИ» ее» ЭТО РЕЗУЛЬТАТЫ ОТВЕТОВ “ДА“ 
ЦЛЫ “НЕТ”, А ПРОГНОЗЫ ПО КЛАССИ- 


<РИКАТОРУ БУДУТ ДЕЛИТЬСЯ 
НА ПРЕДСКАЗАННОЕ “ДА” 
И ПРЕДСКАЗАННОЕ “НЕТ”, 


ЗЧ. ДОЛЯ ПРАВИЛЬНО ПРЕДСКАЗАННЫХ ОБЪЕКТОВ, ТОЧНОСТЬ, ПОЛНОТА И Е-МЕРА 


ЭТО МАТРИЦА НЕТОЧНОСТЕЙ, 
ЦИФРЫ У НАС ТОЛЬКО ДЛЯ ПРИМЕРА, 
НО ЧТО ТЫ МОЖЕШЬ ПОНЯТЬ ОТСЮДА, 
КНЁХАРА-КУН? 


Со 
А едсказаимое 


ЕСЛИ СЛОЖИТЬ РЕЗУЛЬТАТЫ 
ПО ЭТОЙ ДИАГОНАЛИ, 


Предсказанное Предсказанное ТО УЗНАЕМ ТОЧНОСТЬ, А ЕСЛИ 
я КОЛИЧЕСТВО ОШИБОК? 


Точность: 30 + 40 =70 
ОшиБКи: 20 + 10 = 30 


ЕСЛИ МЫ СЛОЖИМ РЕЗУЛЬТАТЫ “Дд», ОИ | 
ТО ПОЛУЧИМ $0, из НИХ ЗО ПРЕДСКАЗАНЫ — ПРОСТЕЙШИЙ ПОКАЗАТЕЛЬ, КОТОРЬШ 


ЛОГИНЕСКИМ КЛАССИФРИКАТОРОМ, МОЖНО УЗНАТЬ ИЗ ЭТОЙ ТАБЛИЦЫ, 
А 20 ОШиБОННЫ. РАССЧИТЫВДЕТСЯ ПУТЕМ ДЕЛЕНИЯ 


КОЛИНЕСТВА ПРАВИЛЬНО ПРЕДСКАЗАН- 
НЫХ КЛАССИФРИКАТОРОМ ОТВЕТОВ НА 
ОБЩЕЕ КОЛИЧЕСТВО ДАННЫХ. 


К й Предсказанное | Предсказанное 
\ «да» «нет» 


м 


В СЛУЧАЕ ЭТОЙ ТАБЛИЦЫ 
ПОЛУЧИТСЯ О7 - ЭТО ДОЛЯ ПРАВИЛЬНО 
ПРЕДСКАЗАННЫХ ОБЪЕКТОВ. 


С ПЕРВОГО ВЗГЛЯДА КАЖЕТСЯ, 
ЧТО ЭТОГО ДОСТАТОЧНО, 
НО ДЛЯ ОЦЕНКИ МАШИННОГО 
ОБУЧЕНИЯ ЭТО ЕЩЕ НЕ ВСЕ. 


ЧТОР 
ДОЛЕЙ ПРАВИЛЬНО ПРЕДСКАЗАН- 
НЫХ ОТВЕТОВ НЕ ОБОЙТИСЬ? 


ИМЕННО! 
ДОПУСТИМ, ЧТО БОЛЕЕТ 
ОДИН ЧЕЛОВЕК ИЗ ТЫСЯЧИ, 
ВСЕ НЕГАТИВНЫЕ РЕЗУЛЬТАТЫ 
ПОВЛИЯЮТ НА ЛОГИЧЕСКИЙ 
КЛАССИФРИКАТОР И НА ДОЛЮ 
ПРАВИЛЬНЫХ ОТВЕТОВ, 


А, ОНА БУДЕТ ОЗаа. 


ЗЧ. ДОЛЯ ПРАВИЛЬНО ПРЕДСКАЗАННЫХ ОБЪЕКТОВ, ТОЧНОСТЬ, ПОЛНОТА И Е-МЕРА 


ДАВДИ ПРЕДСТАВИМ СИТУАЦИЮ, 

КОГДА НИСЛО ЛЮДЕЙ, КОТОРЫЕ 

НЕ БОЛЕЮТ, НАМНОГО БОЛЬШЕ 
ЧИСЛА ЗАБОЛЕВШИХ, 


ТО ЕСТЬ СКЛАДЫВАТЬ 
ПОЛОЖИТЕЛЬНЫЕ 
И ОТРИЦАТЕЛЬНЫЕ РЕЗУЛЬТАТЫ 
НЕ ПОМОЖЕТ? 


ЧТОБЫ РАСПОЗНАТЬ 
ТАКИЕ СИТУДЦИИ, РЕЗУЛЬТАТЫ 
МАШИННОГО ОБУЧЕНИЯ 
НЕОБХОДИМО ПЕРЕПРОВЕРЯТЬ. 


ЭТО СНОВА ТА ЖЕ САМАЯ 
МАТРИЦА НЕТОННОСТЕН. 


ЕРЕНИЯ Предсказанное «да» Предсказанное «нет» 
Истинное «да» Истинное «за» (ИЗ) Ложное «против» (ЛП) 
Ложное «за» (ЛЗ) Истинное «против» (ИП) 


НАПРИМЕР, ЛЕВЫЙ ВЕРХНИЙ ЭЛЕМЕНТ 
НАЗЫВАЕТСЯ ИСТИННЫМ “3А", ПОТОМУ ЧТО 
КЛАССИФРИКАТОР ПРЕДСКАЗАЛ ДА’ И ЭТО СОВПАЛО 
С ИСТИННЫМ РЕЗУЛЬТАТОМ, ДЛЯ СОКРАЩЕНИЯ 
ИСПОЛЬЗУЕТСЯ АББЕРЕВЦАТУРА ИЗ. 


[:7 А `ЛОЖНОЕ ПРОТИВ" - 
/ ЭТО КОГДА БЫЛО ПРЕДСКАЗАНО 
“НЕТ”, НО РЕЗУЛЬТАТ НА САМОМ 
ДЕЛЕ ‘ДА’. 


ТАКИМ ОБРАЗОМ, ДОЛЯ ПРАВИЛЬНО 
ПРЕДСКАЗАННЫХ ДАННЫХ БУДЕТ 
вынчислаться по <РОРМУЛЕ НИЖЕ: 


Доля правильно 
предсказанных = 
данных 


ИЗ+ИП 
ИЗ+ЛП + ЛЗ + ИП 


НУЖНО РАЗДЕЛИТЬ КОЛИЧЕСТВО 
ПРАВИЛЬНЫХ ОТВЕТОВ 
НА ОБЩЕЕ КОЛИЧЕСТВО ДАННЫХ. 


ПОГОВОРИМ О ТОЧНОСТИ. ОНА ПОКАЗЫВАЕТ, ТОЧНОСТЬ ВЫЧИСЛЯЕТСЯ 
МОЖНО ЛИ ДОВЕРЯТЬ КЛАССИЗРИКАТОРУ ПО ПРЕДСТАВЛЕННОИ 
ПРИ ДЕЛЕНИИ ДАННЫХ. <РОРМУЛЕ. 


ДОПУСТИМ, МЫ ХОТИМ 
УЗНАТЬ, НАСКОЛЬКО ТОЧНО 
МЫ ОПРЕДЕЛИЛИ БОЛЕЗНЬ, 


Точность = 


МЫ ДЕЛИМ КОЛИЧЕСТВО 
ИСТИННЫХ “ЗА” НА СУММУ ‘ДА’, 
ПРЕДСКАЗАННЫХ КЛАССИФРИКАТОРОМ. 


ГЛАВА 3. ОЦЕНКА РЕЗУЛЬТАТОВ 


ПОСЛЕ ТОЧНОСТИ ИДЕТ ПОЛНОТА ДАННЫХ. 
ОНА УКАЗЫВАЕТ, НАСКОЛЬКО АДЕКВАТНО ОЦЕНИВАЮТСЯ 
ИСТИННЫЕ “ДА”. НАПРИМЕР, МЫ МОЖЕМ УЗНАТЬ, 
НАСКОЛЬКО АДЕКВАТНА ВЫБОРКА НА ОСНОВАНИИ НТОБЫ НАЙТИ ПОЛНОТУ, 


КОЛИЧЕСТВА НА САМОМ ДЕЛЕ ЗАБОЛЕВШИХ ЛЮДЕН, АДО РАЗДЕЛИТЬ КОЛИЧЕСТВО 
ИСТИННЫХ “3”, ПРАВИЛЬНО 

ПРЕДСКАЗАННЫХ КЛАССИФРИКАТОРОМ, 

НА ОБЩУЮ СУММУ 

истинных ‘ДА’. 


ИЗ 
ИЗ+ ЛП 


Полнота = 


А о ДОПУСТИМ, 
ИМЕННО! ТОЧНОСТЬ ТОЧНОСТЬ КЛАССИФРИКАТОРА, 
КОТОРЫЙ ВЫДДЕТ ПОЛОЖИТЕЛЬНЫЙ 
Ц ПОЛНОТА НАХОДЯТСЯ В ТАКИХ РЕЗУЛЬТАТ, БУДЕТ ВЫШЕ, ЕСЛИ МЫ ЗАРАНЕЕ 
ОТНОШЕНИЯХ; ЕСЛИ ИСПОЛЬЗО- ЗНДЕМ, ЧТО В НАШИХ ДАННЫХ ЕСТЬ 
ВАТЬ ОДИН ИЗ ЭТИХ БОЛЬШОЕ КОЛИЧЕСТВО ЛЮДЕЙ, 
ПАРАМЕТРОВ, ДРУГОЙ ТЕРЯЕТ | № АННО 


Л 
ЗНАНИМОСТЬ, И НАОБОРОТ, БОЛЕЗНЫЮ. 


И НАОБОРОТ, ЕСЛИ В ПРНОРИТЕТЕ 
ВЫСОКАЯ ПОЛНОТА ДАННЫХ, 
ТО ПРИ МАЛЕЙШЕМ СОМНЕНИИН 

КЛАССИФРИКАТОР БУДЕТ ВЫДАВАТЬ 

РЕЗУЛЬТАТЫ “Дд“, 


НЕЗНАНИТЕЛЬНЫЙ СИМПТОМ И МЫ 
ТОЧНО НЕ ЗНАЕМ, БОЛЕН ОН ИЛИ 

НЕТ, ТО БОЛЕЗНЬ М ПРОГЛЯДЕТЬ 
: МОЖНО? 


ДА! ПОТОМУ ЧТО ПОЛНОТА 
ДАННЫХ В ЭТОМ СЛУЧАЕ НИЗКАЯ. 


ВЕРОЯТНОСТЬ ПРОПУСТИТЬ ЗАБОЛЕВШЕГО 
НИЗКАЯ, ОДНАКО ПРИДЕТСЯ ПРОВОДИТЬ 
БОЛЬШОЕ КОЛИЧЕСТВО МЕДОСМОТРОВ 

ЛЮДЕЙ, КОТОРЫЕ НЕ ЗАБОЛЕЛИ, 


ТОЧНОСТЬ И ПОЛНОТУ ДАННЫХ 
ОБЪЕДИНЯЕТ ТАК НАЗЫВАЕМАЯ 
Р-МЕРА. 


Точностьх Полнота 
Точность + Полнота 


ЭТО СРЕДНЕЕ ГАРМОНИНЧЕСКОЕ? 


А ЧТО, ЕСЛИ У НАС 
ТРИ КЛАССИУРИКАТОРАР 


Макросреднее 

(тасго ауегаце) 

[__ телаказанноел Остальное] Предека- | Предска- [ Предска ь 

Истинное анное А | занное В | занное С 

осальюе [| Па Иинюил| | [| |. ИЗА+ ИЗВ+ ИЗС 
> 

ГОСТЯТРНОе —— Ивтинное | м 


У НАС ЕСТЬ МАСРО ДАМЕРАЕЕ - ЭТО НАХОЖДЕНИЕ СРЕДНЕГО 
М3 ЭФРФРЕКТИВНОСТИ КАЖДОГО КЛДССА В МАТРИЦЕ НЕТОЧНОСТЕЙ, 
ЧН МСРО ДА\МЕРАЕЕ, КОГДА СКЛАДЫВАЮТСЯ ПОКАЗАТЕЛИ 13, 1/3, ИП, ЛП 
КАЖДОГО КЛАССА И ДЕЛЯТСЯ НА ОБЩЕЕ КОЛИЧЕСТВО ДАННЫХ. 
МСРО АМЕРАЕЕ ОТРАЖДЕТ СООТНОШЕНИЕ ДАННЫХ С ВЕЛИЧИНОЙ ОЦЕНКИ. 


ТО ЕСТЬ ВСЕ ЭТИ ЗНАЧЕНИЯ НАДО ИСПОЛЬЗОВАТЬ? 


В ЗАВИСИМОСТИ ОТ ЗАДАЧИ 
МОЖНО СОСРЕДОТОЧИТЬСЯ НА ТОЧНОСТИ, 
А ННОГДА НА ПОЛНОТЕ, ЕСЛИ ЖЕ НАМ НУЖНЫ ОБА 
ПОКАЗАТЕЛЯ, ТО ЛУЧШЕ ВСЕГО ИСПОЛЬЗОВАТЬ Е-МЕРУ, 


СПАСИБО, САЯКА-СЭМПАИ, 


ВОТ КАК. 


ПОПРОБУЮ ОЦЕНИТЬ САЙТ. 


НАДЕЮСЬ, 
У МЕНЯ ПОЛУЧИТСЯ. 


У НЕГО 
ИЗМЕНИЛОСЬ 
ОТНОШЕНИЕ 
К УЧЕБЕ... 


ПОКА ОБЪЯСНЯЛА 
СЕГОДНЯ, НИЧЕГО 
НЕ СЪЕЛА. 


ЗЧ. ДОЛЯ ПРАВИЛЬНО ПРЕДСКАЗАННЫХ ОБЪЕКТОВ, ТОЧНОСТЬ, ПОЛНОТА И Е-МЕРА 


Отдел здравоохранения _ 
иблагосостояния = 


ТАК, ПЕРЕКРЕСТНАЯ 
ПРОВЕРКА, 


САМО СОБОЙ, СКОЛЬКО ТАМ ОШИБОК... 
САЙТ НАДО ЗАКРЫТЬ. И3-3Д СВОЕЙ ГЛУПОСТН 
я ДОСТАВИЛ ВСЕМ ЖИТЕЛЯМ 
СТОЛЬКО БЕСПОКОЦСТВ! 


И ВСЕ ИЗ-ЗА ТОГО, 
ИТО Я СБЕЖАЛ ОТЧЕЕ! ДА что Ж 


Я ТАКОЕ СДЕЛАЛ... 


В кабинете у Саяка (4) 


Математическое повторение (3) 


Сегодняшняя беседа была довольно проста с точки зрения ма- 
тематики, однако она важна для машинного обучения. Можно 
скопипастить полученные данные, но нехорошо, если возника- 
ет ситуация «все сделал, но не понимаю, что получилось». 


Я немного не понимаю число ЕЁ Это всего лишь среднее от точ- 
ности и аккуратности? 


Обычное среднее - это арифметическое среднее. Если у нас 
есть числа а и БВ, то оно определяется по формуле (а + Б)/2. Так 
определяют средний балл теста, температуру и т. п., но для 
прогнозов используется другой метод. 


Что касается точности или полноты, то среднее находится дру- 
гим способом. 


Ну, давай рассмотрим пример из повседневной жизни - ско- 
рость. Как она определяется? 


Расстояние, поделенное на время! 


В КАБИНЕТЕ У САЯКА (Ч). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (3) 


Да. Возьмем такой пример. 


И 
® бки+— 
В НЕ 
Ш 
о 2х (-#* 5) = 4.8 кмич г 


Вот когда ты идешь в школу, скорость 4 км/ч. 


А когда ты возвращаешься из школы, то 6 км/ч. Расстояние 
одинаковое, верно? Но какая будет средняя скорость? 


2х х 4хб _ 48 
=2х ох — = 4.8 

хх х4+6) 4+6 10 

4 4 4х6 


Да. Эта формула 2х [16 используется и для нахождения 


Е-меры. Это среднее гармоническое значение. 


ГЛАВА 3. ОЦЕНКА РЕЗУЛЬТАТОВ 


ГЛАВА Ч 


ГЛУБОКОЕ ОБУЧЕНИЕ 


ГЛУБОКОЕ ОБУЧЕНИЕ 
ДЛЯ РАСПОЗНАВАНИЯ 
КАРТИНОК! 


ПРИВЕТ, САЯКА-СЭМПАИ! 


о ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


ТЫ ЧЕГО 
| ТАК ОБЫЧНО ЗАХОДИШЬ? 
КНЁХАРА-КУН! 


< $: —— а 
НУ, Я ТАК ТОЖЕ МОГУ, 


С ТОГО РАЗА ДВЕ НЕДЕЛИ ПРОШЛО, 
И ТЕБЯ ОПЯТЬ ЧТО-ТО БЕСПОКОНТ? 


ИЗВИНИТЕ, 
ЧТО НЕ ПРЕДУПРЕДИЛ ЗАРАНЕЕ! 
ХОТЕЛ СКАЗАТЬ, НТО САНТ ГОТОВ, 


ТАК-ТАК, 

ты нд что-то 

НАМЕКДЕШЬ? РАССКАЖЕТЕ МНЕ 
ПРО ГЛУБОКОЕ ОБУЧЕНИЕ? 


ДА, СЭМПАЙ, 1| Глубокое обучение 


У МЕНЯ К ВАМ ЕЩЕ (Чеер [еагпд] 
ОДНА ПРОСЬБА, 
СОВСЕМ ДРУГАЯ. 


Один из способов машинного 
обучения с использованием 
нейронных сетей. В последнее 
время привлекает к себе внимание 
Благодаря высокой 
эффективности в сферах 
распознавания 

изображений, звуков 
иестественной речи. 


НЕДАВНО, КОГДА Я СИДЕЛ, 
ГЛУБОКОЕ РАССТРОЕННЫЙ ИЗ-ЗА САЙТА, 
“| ПРИШЕЛ ЧЕЛОВЕК ИЗ ДЕПАРТАМЕНТА 
2 
ОРУНЕНЫЕ: СЕЛЬСКОГО ХОЗЯЙСТВА И ПОПРОСИЛ 


Н-ДА... НУ, СНАЧАЛА мена кОЕ © НЕМ, 


РАССКАЖИ, ЧТО и ЗАНЕМ 
ТЫ СЕГОДНЯ ПРИНЕС. 


» : — МЫ ХОТЕЛЫ БЫ 
КОНЕННО.. м ее. КТО-НИБУДЬ САЕЛАМ . 
ВТОМАТИНЕСКУЮ. СИСТЕМУ, котоРда. 
| й 
ни `СМОГАА БЫ СОРТИРОВАТЬ ВИНОГРАА. 


МЕСТНАЯ КОМПАНИЯ ПО ИЗГОТОВЛЕНИЮ ЭЛЕКТРОНЫКИ = 
_САЕЛАЛА ПРОГРАММУ ДАЛЯ АВТОМАТИЧЕСКОЙ УПАКОВКИ 
ЕЦНОГРАДА НА КОНВЕЦЕРЕ, НО СОРТИРОВАТЬ ВННОГРАА — 


о НЕ УМЕЕТ. 


МОИ ПРОШЛЫЕ НЕУДАЧИ ПРИВЕЛИ МЕНЯ К ТОМУ, 
ЧТО Я РЕШИЛ ПОСОВЕТОВАТЬСЯ С КУДЗЁ-САН. 


а ЧТО ПРИ ПОМОЩИ _ 
Г ЛУБОКОГО ОБУЧЕНИЯ | : —_ : : : : - . 
МОЖНО РАЗДЕЛАТЬ =] Е — она ИЗОБРАЖЕНИЯХ. __ 
_ ПРЕДМЕТЫ РАЗНЫХ _ — 
_ РАЗМЕРОВ. 


— ЭТО БЫЛО КАК РАЗ ТО, 


[но этО.. У ТЕБа НИЧЕГО 
ЧТО МНЕ НУЖНО, Ц Я ПОБЛАГОДАРИЛ | || 


Е ПОЛУЧАЕТСЯ, АТЫ  /^\ 
о ВСЕ СИЛЕ СЯР_ 


о 
и 


о 
_ С ПРОГРАММОЙ ПОНААОБИТСЯ, | 


О 


Я ЧИТАЛА ЭТУ ЗАМЕТКУ, А ТЫ ХОЧЕШЬ, ЧТОБЫ Я ТЕБЕ 
ХОРОШИЙ ЧЕЛОВЕК ПОМОГАЛА? НАМНГОЭ-СЭНСЭй 
ЭТОТ КУДЗЁ-САН, УЖЕ ВЕРНУЛСЯ. 


Я СНАЧАЛА ПОДУМАЛ, ЧТО 
С НИМ ТРУДНО ПОЛАДИТЬ, 
НО ОН ВСЕГДА ВЫРУЧИТ, 


НУ, Я ДУМАЛ, САЯКА-СЭМПАИ, 
ВЫ МНЕ ПОМОЖЕТЕ. 


Я НЕ ХОЧУ СНОВА 
ОБЛАЖАТЬСЯ! 


ПУСТЬ В ПРОШЛЫЙ РАЗ У ТЕБЯ 
НЕ ПОЛУЧИЛОСЬ, НО В ЭТОТ ПОЛУЧИТСЯ! 
Я ТЕБЕ ВСЕ РАССКАЖУ! 


ИТАК, РАЗБЕРЕМ СЕГОДНЯ, | КАК МЫ МОЖЕМ ЕГО СОРТИРОВАТЬ? 
КАК СОЗДАТЬ АВТОМАТИЗИРОВАННУЮ [| 
СИСТЕМУ ПО СОРТИРОВКЕ 
ВИНОГРАДА. 


ПО РАЗМЕРУ, <РОРМЕ, 
ЦВЕТУ, ВЕЛИЧНИНЕ СЕМЕЧЕК 
и -РОРМЕ ГРОЗА, 


Величина 
семечек 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 
Форма грозди 


ПО ВСЕЙ ВИДИМОСТИ, ДЛЯ СОРТИРОВКИ 
НАМ ПОНАДОБИТСЯ БОЛЬШОЕ КОЛИЧЕСТВО 
ИЗОБРАЖЕНИЙ И СВЕРТОЧНАЯ НЕИЙРОННАЯ СЕТЬ, 
КОТОРАЯ БУДЕТ МХ РАСПОЗНАВАТЬ 
Н ЗАТЕМ КЛАССИФРИЦИРОВАТЬ, 


ДА, С НАСКОКА С ЭТОЙ 
ЗАДАЧЕЙ НЕ СПРАВИТЬСЯ. 
НУЖЕН ОПЫТ! 


ЭТО М ЕСТЬ 
НАШ МЕТОД? 


р ИИ 


А ПОТОМ УЖЕ 

БЕЗ ПАНИКИ/ СНАЧАЛА ПОГОВОРИМ ПЕРЕИДЕМ К ОБЪЕКТУ 
О НЕЙРОННЫХ СЕТЯХ, ЗАТЕМ ГЛУБОКОГО ОБУЧЕННАЯ - 

О ГЛУБОКОМ ОБУЧЕНИИ, ИНЫМИ К СВЕРТОЧНОЙ 
СЛОВАМИ, О ТОМ, ЧТО ЭТО ТАКОЕ. НЕЙРОННОЦ СЕТИ! 


Ф Основы нейронной  @ Многослойная © Сверточная 
нейронная сеть нейронная сеть 


Дендрит 


НЕИЙРОННАЯ СЕТЬ - ЭТО 
ОСНОВНОЙ РАСЧЕТНЫЙ 
МЕХАНИЗМ, СОЗДАННЫЙ 
ПО МОДЕЛИ НЕРВНЫХ 

КЛЕТОК ЖИВЫХ СУЩЕСТВ. 


КАК ПОКАЗАНО НА РИСУНКЕ, КЛЕТКИ (НЕЙРОНЫ> 
СОЕДИНЕНЫ МЕЖДУ СОБОЙ ЧЕРЕЗ СИНАПСЫ - 
СОЕДИНИТЕЛЬНЫЕ УЧАСТКИ и ОБРАЗУЮТ 


ИА а СЛОЖНУЮ СЕТЬ, 
А КАК УСТРОЕНЫ 
НЕРВНЫЕ КЛЕТКИ 


ЖИВЫХ СУЩЕСТВ? 4.1. НЕЙРОННАЯ СЕТЬ 


КАЖДЬЙ НЕПЙРОН 
ПОЛУЧАЕТ ПОЛОЖИТЕЛЬНО ИЛИ 
ОТРИЦАТЕЛЬНО ЗАРЯЖЕННЫЙ 
СИГНАЛ ОТ СВЯЗАННЫХ 
С НИМ НЕЙРОНОВ, 


ТАКИЕ НЕИРОНЫ, КАК НА КАРТИНКЕ, НАЗЫВАЮТСЯ 
ПОРОГОВЫМИ ЛОГИЧЕСКИМИ ЭЛЕМЕНТАМИ. 


х 
КОГДА СУММА ЗАРЯДОВ : 
ДОСТИГАЕТ ОПРЕДЕЛЕННОГО 
ЗНАЧЕНИЯ, ОН НАЧИНАЕТ 
ГЕНЕРИРОВАТЬ — Вывод (о или 1] 
ЭЛЕКТРИНЕСКИЙ СИГНАЛ. 
Пороговая ПОРОГОВЫМИ? 
и. функция 
Ха Взвешенная 
Ввод сумма РЕЧЬ ИДЕТ О ПРЕДЕЛЕ, 


ИЛИ ГРАНИЦЕ. 


Пример функции активации: 
<УНнкиНя КИ) ОТ СУММЫ ЗАРЯДОВ пороговая функция 
НА ВХОДЕ Й НАЗЫВАЕТСЯ 
<РУНКЦИЕЙ АКТИВАЦИИ. 


Заряды 
суммируются 
на входе вместе 
с порогом м/о 


Функция 
активации 


Проснулся 
— Вывод (0 или 1] 


ЕСЛИ ЗАДАТЬ ЗНАЧЕНИЕ ПОРОГА \/( М ДОБАВИТЬ НА ВХОДНОЙ 
СТОРОНЕ ВХОД, ВЕЛИЧИНА КОТОРОГО ВСЕГДА БУДЕТ РАВНА \/(, 

ТО МОЖНО ИСПОЛЬЗОВАТЬ ПРОСТУЮ <РУНКЦИЮ АКТИВАЦИИ, ВЫХОД 
КОТОРОЙ БУДЕТ РАВЕН 1 или 0 в ЗАВИСИМОСТИ ОТ ТОГО, ЯВЛЯЕТСЯ ЛН 
ВЗВЕШЕННАЯ СУММА ПОЛОЖИТЕЛЬНОЙ ИЛИ ОТРИЦАТЕЛЬНО. 


СОЕДИНЕНИЕ МНОЖЕСТВА СЛОЕВ ТАКИХ ЭЛЕМЕНТОВ НАЗЫВАЕТСЯ 
НЕНРОННОЙ СЕТЬЮ, КОГАД МНОЖЕСТВО СЛОЕВ ЭЛЕМЕНТОВ ОБРАЗУЕТ 
НЕНРОННУЮ СЕТЬ, ТО ПОРОГОВАЯ «РУНКЦИЯ, <РУНКЦИЯ АКТИВАЦИИ, 
ВЕДЕТ СЕБЯ КАК СИГМОНАНАЯ <РУНКЦИЯ. МЫ ЕЕ ВСТРЕЧАЛИ, 
КОГДА ГОВОРИЛИ О ЛОГИСТИНЕСКОЙ РЕГРЕССНИИ. 


А ПОЧЕМУ ИСПОЛЬЗУЕТСЯ 
СИГМОНАДНАЯ <РУНКЦИЯ? 


ПРИ ОБУЧЕНИИ ЗРУНКЦИЮ АКТИВАЦИИ НЕОБХОДИМО 
ДАОРФРЕРЕНЦИРОВАТЬ, А ПОРОГОВУЮ <РУНКЦИЮ 
ДА<РФРЕРЕНЦИРОВАТЬ НЕЛЬЗЯ, 


Сигмоидная функция 


Входной слой 


Выходной слой 
Скрытый слой 


-10.0 -7.5 -5.0 -2.5 


ЕСЛИ ПРОВЕСТИ АНАЛОГИЮ С ЖИВЫМИ 
ОРГАНИЗМАМИ, ТО ВХОДНОЙ СЛОИ - 
ЭТО КЛЕТКИ, КОТОРЫЕ РЕАГИРУЮТ 
НА ВНЕШНИЕ РАЗДРАЖИТЕЛИ, СКРЫТЫЙ СЛОЙ - 
КЛЕТКИ, КОТОРЫЕ ПЕРЕДАЮТ СИГНАЛЫ, 
А ВЫХОДНОЙ СЛОЙ - КЛЕТКИ МОЗГА, 
КОТОРЫЕ КЛАССИУРИЦИРУЮТ СИГНАЛЫ, 


ЭТО НЕЙРОННАЯ СЕТЬ 
С ПРЯМЫМ РАСПРОСТРАНЕННЕМ, 


МОДЕЛЬ, СИГНАЛ 
В КОТОРОЙ МОЖЕТ 
ТОЛЬКО МАТИ ВПЕРЕД, 


ДА. 
ВСЕ ЭЛЕМЕНТЫ СОЕДИНЕНЫ () Сумма весов 


С СОСЕДНИМИ СЛОЯМИ, 
НО БЕЗ ОБРАТНОЙ СВЯЗИ, 


СИГНАЛ МДЕТ ОТ ВХОДА () 


< 
К ВЫХОДУ В ПРЯМОМ я 
НАПРАВЛЕНИИ, _ 


Функция 
ЧЕРЕЗ ТРИ СЛОЯ? активации 


Входной Скрытый Выходной 
слой [в] слой 


ВХОДНОЙ СИГНАЛ ВЫХОДИТ ИЗ ВХОДНОГО слоя 
ПРЫ ЧИСЛЕННЫХ РАСЧЕТАХ \: БЕЗ ИЗМЕНЕНИЙ, ЕГО ЗАРЯДЫ СУММИРУЮТСЯ 
МОЖНО ИСПОЛЬЗОВАТЬ °— | И ПОСТУПАЮТ НА СКРЫТЫЙ СЛОЙ. НА СКРЫТОМ 
ТОЛЬКО АВА, СКРЫТЫМ СЛОН | СЛОЕ СУММА ЗАРЯДОВ, ПОСТУПИВШИХ 
и ВЫХОдНОнН, СО ВСЕХ ВХОДНЫХ СЛОЕВ, ОБРАБАТЫВАЕТСЯ 
С ПОМОЩЬЮ <РУНКЦИИ АКТИВАЦИИ. В СЛУЧАЕ 
ЕСЛИ В НЕЙРОННОЙ СЕТИ С ПРЯМЫМ 
РАСПРОСТРАНЕНИЕМ РЕШДЕТСЯ ЗАДАЧА 
БИНАРНОЙ КЛАССИСРИКАЦИИ, НА ВЫХОДНОМ 
СЛОЕ ОДИН ЭЛЕМЕНТ. 
КАК И В СЛУЧАЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ, 
ВЫХОДНОЕ ЗНАЧЕНИЕ ЭТОГО СЛОЯ МОЖНО 
РАССМАТРИВАТЬ КДК ВЕРОЯТНОСТЬ ТОГО, 
ЧТО ВХОДНОЙ СИГНАЛ ОТНОСИТСЯ 
К ПОЛОЖИТЕЛЬНОМУ КЛАССУ, 


4.1. НЕЙРОННАЯ СЕТЬ 


ЕСЛИ ЖЕ КЛАССИФРИКАЦИЯ ВЕДЕТСЯ ПО НЕСКОЛЬКИМ 
КАТЕГОРИЯМ, ТО КОЛИЧЕСТВО ВЫХОДНЫХ ЭЛЕМЕНТОВ 
СОВПАДДЕТ С КОЛИЧЕСТВОМ КЛАССОВ, В ТАКОМ СЛУЧАЕ 
ВЕРОЯТНО, ЧТО БОЛЬШОЕ КОЛИЧЕСТВО ЭЛЕМЕНТОВ 
НА ВЫХОДНОМ СЛОЕ ВЫДАСТ ЗНАЧЕНИЕ, БЛИЗКОЕ К 1. 


ТОГДА В КАЧЕСТВЕ 
<РУНКиНИ АКТИВАЦИИ КП) 
ИСПОЛЬЗУЕТСЯ 
НЕ СИГМОНАА, 

А ФУНКЦИЯ ЗОЕТМАХ, 


ЗДЕСЬ [1 - СУММА ЗАРЯДОВ НА ВЫХОДЕ ИЗ СКРЫТОГО 
СЛОЯ, КОТОРАЯ СООТВЕТСТВУЕТ КОЛИЧЕСТВУ ЭЛЕМЕНТОВ 
ВЫХОДНОГО СЛОЯ И КОЛИЧЕСТВУ КЛАССОВ К. 


КАК ВЫ ДУМДЕТЕ, МОЖНО ПРИМЕНИТЬ 
СИГМОНАНУЮ <РУНКЦИЮ К ВЗВЕШЕННОЙ СУММЕ 
ЗАРЯДОВ, КОТОРАЯ ПРИНИМАЕТ ЗНАЧЕНИЯ ОТ 
0 ДО Г.А ЗАТЕМ ВЗЯТЬ МАКСИМАЛЬНОЕ 
ЗНАЧЕНИЕ? 


ЕСЛИ В КАЧЕСТВЕ <РУНКЦИИ АКТИВАЦИИ 
ИСПОЛЬЗУЕТСЯ ЗОРТМАХ, ТО ПРИ СЛОЖЕНИИ ВЫХОДОВ 
ВСЕХ ЭЛЕМЕНТОВ ВЫХОДНОГО СЛОЯ 91, ПОЛУЧИТСЯ ]; 


Ц ПОЭТОМУ МОЖНО ГОВОРИТЬ О ВЕРОЯТНОСТИ, 
Ц ПОНЯТЬ ВЕРОЯТНОСТЬ 


ИСПОЛЬЗОВАНИЯ КАЖДОГО 
КЛАССА. 


Величина взвешенной 

суммы зарядов на входе 

ВЫХОДНОГО СЛОЯ нейронной 

Функция зоРитах 
0.5 
0.4 
Функция тах а 0.3 
0.2 
0.1 
с1 с2 


Случайт: классы 
Более-менее равны 


с1 с2 с3 
Ясно только, какой класс 
используется чаще всего 


(9 в с3 1 2 3 
Случай 2: один класс Ясна вероятность появления 
выделяется каждого класса 


:4.2. ОБУЧЕНИЕ МЕТОДОМ ОБРАТНОГО 
‚РАСПРОСТРАНЕНИЯ ОШИБОК 


МЫ ОПРЕДЕЛЯЕМ Ц РЕГУЛИРУЕМ 


КОГДА МЫ ГОВОРИМ ОБ “ОБУЧЕНИИ” СУММУ ЗАРЯДОВ КАЖАОГО 
8 НЕЙРОННЫХ СЕТЯХ С ПРАМЫМ ЭЛЕМЕНТА, 
РАСПРОСТРАНЕНИЕМ, МЫ ГОВОРИМ 
О “ВЗВЕШЕННОЙ СУММЕ] 
ЗАРЯДОВ ВХОДНОГО 
СИГНАЛА", 


ПО ПОЛУЧЕННЫМ ДАННЫМ 


КАК ЭТО ПРОИСХОДИТ? 


КАЖДЫЙ ЭЛЕМЕНТ ВЫПОЛНЯЕТ НЕЛИНЕЙНОЕ 
ПРЕОБРАЗОВАНИЕ С ПОМОЩЬЮ СИГМОНДНОЙ 
РУНКЦИИ, ЕСЛИ СЛОЖИТЬ СУММЫ ЗАРЯДОВ (ВЕСОВ), 
ТО ПОЛУЧИТСЯ НЕЛИНЕЙНЫЙ КЛАССИФРИКАТОР 
ПРИЗНАКОВОГО ПРОСТРАНСТВА. 


ЧТОБЫ УМЕНЬШИТЬ КОЛИЧЕСТВО 
ОШИБОК КЛАССИФРИКАЦИИ 
В ЭТОМ НЕЛИНЕЙНОМ 
КЛАССИФРИКАТОРЕ, КАК 
И В СЛУЧАЕ КЛАССИРИКАЦИИ, 
КОТОРУЮ МЫ ДЕЛАЛИ ПЕРЕД 
НАСТРОИНКОЙ ВСЕГО ВЕСА, 
Разделяющая НАДО НАЙТИ РАЗДЕЛЯЮЩУЮ 
поверхность ПОВЕРХНОСТЬ М МНИНИМИЗЧРОВАТЬ 
скрытого слоя1 ОШИБКУ. 


Скрытый 
слой1 


Скрытый 
слой2 


Разделяющая Разделяющая поверхность, 

поверхность представляющая собой 

скрытого слоя 2 взвешенную сумму двух 
разделяющих поверхностей 


НАСТРОИКА ВЕСА ОТ СКРЫТОГО СЛОЯ 

К ВЫХОДНОМУ ПРОИЗВОДИТСЯ С ПОМОЩЬЮ 
ВЫХОДА НЕЙРОННОЙ СЕТИ и ОБУЧАЮЩЕГО 
СИГНАЛА. ИНЫМИ СЛОВАМИ, ОБУЧЕНИЕ ВЕДЕТСЯ 
ПУТЕМ СРАВНЕНИЯ С ПРАВИЛЬНЫМ РЕЗУЛЬТАТОМ 
И ОЦЕНКИ ОШИБКИ, 


ИМЕННО! 

В ТАКОМ СЛУЧАЕ 

В МНОГОСЛОННОЙ СЕТИ ИДЕТ 
ОБУЧЕНИЕ ПУТЕМ МЕТОДА 
ОБРАТНОГО РАСПРОСТРАНЕНИЯ 
ОШИБОК, 


А ЕСЛИ ОБУЧАЮЩЕГО СИГНАЛА 
НА СКРЫТОМ СЛОЕ НЕТ, ТО Ц ОШИБКИ, 
ПОЛУНАЕТСЯ, СРАВНИВАТЬ НЕ С ЧЕМ, 


ЗМ в 
Е. Е к ме 
А ПОМ 


ИА 
“. 


Поговорим о методе обратного распространения ошибок. Пусть 
обучение ведется в нейронной сети с архитектурой, как на ри- 
сунке ниже: 


Выход © 


Взвешенная р’ > Правильный 
суммай — результату 


Вход х Скрытый 
СЛОЙ 2 


В качестве данных для обучения возьмем пары: признаковое описание объекта х 
и результат у. Обозначим набор данных Ш, и в нем есть Г-я пара (х» у). Функция 
ошибки может быть определена по-разному, но в данном случае будем минимизи- 
ровать ее, вычисляя квадрат ошибки. 


Е(и)=1 Ху. (4.1) 


Здесь и обозначает всю сумму весов нейронной сети. Используя описанный в гла- 
ве 2 метод градиентного спуска, найдем один вес ч/ из весов " и, регулируя его ве- 
личину, снизим ошибку. 


ими. (4.2) 


Далее найдем частную производную по и функции ошибки Е(и), используя метод 
градиентного спуска. В этом случае изменение веса и’ изменит и выход & функции 
активации. Используя формулу дифференцирования сложной функции, получим 
следующее выражение: 


дЕ(и) _ ЭЕ(м) Эй 
ди ди ди Е 


$ 
А 


(4.3) 


ЗАММИНИСТРА, 
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И 
После вычисления второго множителя в правой части формулы (4.3) из определе- 
ния суммы весов й можно получить значение выхода предыдущего слоя в сочета- 
нии с весом и. Первый множитель можно записать, как показано ниже, с исполь- 
зованием производной. После вычислений у нас получится величина ошибки г. 


_ ЭЕ(м) _ дЕ(м) де 
Е Е ие 


“. 


В формуле 4.4 второй множитель справа - это производная функции активации. 
Поскольку в качестве функции активации используется сигмоида, то это $(1 - 8). 
Значение первого множителя справа зависит от того, между какими слоями вес 
определяется. Если \ - это вес от скрытого слоя к выходному, то первый множи- 
тель - это производная функции ошибки. 


— =2-у. (4.5) 


С другой стороны, если и - это вес от входного слоя к скрытому, то $ в первом мно- 
жителе - это выход скрытого слоя, и его величина будет влиять на выход выходно- 
го слоя й. Обычно выходных слоев много, и их обозначают Й,, где } - номер слоя, 
и первый множитель уравнения (4.4) примет такой вид: 


ЭЕ(®) _ и Эй; _ 


Мы используем г из формулы (4.4), =, - это ошибка от скрытого слоя }, суть метода 
в том, что эта величина используется для корректировки суммы весов от входного 


слоя к скрытому. После обобщения = можно вычислить и по формулам, приведен- 
ным ниже: 


(<-Уз@-®)  вслучае от скрытого слоя к выходному 


& = 
Ули, $ - 8) в случае от начального слоя к скрытому 
р 


>, 


$ 


© 
ИАА 


Ч.2. ОБУЧЕНИЕ МЕТОДОМ ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБОК 


Расчет во время обучения тым 
(Обратное направление] 


Входной Скрытый Выходной 
слой слой слой Вычисление веса нейронов 


> (прямоенаправление] 


СТРЕЛКА ПОД КАРТИНКОЙ ПОКАЗЫВАЕТ ТО ЕСТЬ ОБУЧЕНИЕ 
ПРЯМОЕ РАСПРОСТРАНЕНИЕ СИГНАЛА ПО СЕТИ, ВЕДЕТСЯ 
ВЫНЧИСЛЕНИЕ ВЕСА НЕЙРОНОВ. НАПРАВЛЕНИЕ ВО ВРЕМЯ ОТ ВЫХОДНОГО СЛОЯ? 
ОБУНЕНИЯ УКАЗДНО ВЕРХНЕЙ СТРЕЛКОН. 


МОЖНО ПРЕДСТАВИТЬ, что ВЫХОДНОЙ | ми 


СЛОЙ ОТПРАВЛЯЕТ С ВЫХОДА НАЗАД | СЛОЕМ СИГНАЛЫ КОРРЕКТИРУЮТ 
УРА ОБУЧЕНОЯ, ШЕЕ ОШНЕКА ВЕЛИЧИНУ ВЕСОВ НА СРЕДНЕМ СЛОЕ 


ВЕЛИКА, ТО Он ЗЛИтСа, Ч РУГАЮТ ЕГО. 


Элемент Учительский 


Элемент выходного СЛОЯ сигнал 
скрытого слоя 


Вес разозленного элемента х 
величина веса, направленного < 
к элементу 


Сравнение ошибок злит 
учительский сигнал 
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:4.3. ВЫЗОВЫ ГЛУБОКОГО ОБУЧЕНИЯ 


ТАК, А ТЕПЕРЬ ПОГОВОРИМ О ГЛУБОКОМ ОБУЧЕНИИ 
(ОЕЕР СЕДРММЕ> КАК О МНОГОСЛОЙНОЙ 
НЕНРОННОЙ СЕТИ, 


ДА, УЧИТЕЛЬ! 
МЫ БУДЕМ ГОВОРИТЬ О ТОМ, ЧТО ТАИТСЯ 
В ГЛУБИНЕ НЕЙРОННЫХ СЕТЕЙР 


ЕО о „ПОСТУПИВШИЕ ДАННЫЕ ИЗОБРАЖЕНИЙ 
ОБУЧЕНИЯ ЯВЛЯЕТСЯ ВЫДЕЛЕНИЕ 


ИЛИ ЗВУКОВЫЕ СИГНАЛЫ ПРИ ПОМОЩИ 
ПРИЗНАКОВ. ДЛЯ ЭТОГО НАДО ПРОВОДИТЬ ПРОСТЫХ ВЫРАЖЕНИЙ ПРИЗНАКОВ, 


ВЫДЕЛЕНИЕ ПРИЗНАКОВ НА ОСНОВАНИИ КОТОРЫЕ ОБРАЗУЮТ СЛОЖНЫЕ 
СЛОЖНЫХ ПРОЦЕДУР РАСПОЗНАВАНИЯ ЗВУКА ПРОЦЕДУРЫ. ЭТО ОЧЕНЬ 
ИЛИ ИЗОБРАЖЕНИЯ, ОДНАКО ГЛУБОКИЕ ВЫСОКОЭОРФРЕКТИВНЫЙ МЕТОД. 
НЕНРОННЫЕ СЕТИ МОГУТ ОБРАБАТЫВАТЬ... 


Счем легко справляются глубокие 
нейронные сети: 

» распознавание звука; 

» распознавание изображений; 

» распознавание естественной речи. 


ПОГОВОРИМ ОБ ЭТОМ. СНАНАЛА 
РАССКАЖУ О ПРОБЛЕМЕ ГЛУБОКИХ 
НЕНРОННЫХ СЕТЕЙ. А ПОТОМ О ДВУХ 
ЕЕ РЕШЕНИЯХ; 
12 ХИТРОСТЯХ, КОТОРЫЕ ИСПОЛЬЗУЮТ 
В МНОГОУРОВНЕВОМ ОБУЧЕНИИ; 
> ИСПОЛЬЗОВАНИИ СПЕЦНАЛИЗЦ- 
РОВАННЫХ НЕИРОННЫХ СЕТЕН. 


НА САМОМ ДЕЛЕ ОБУЧЕНИЕ 
МЕТОДОМ ОБРАТНОГО 

РАСПРОСТРАНЕНИЯ ОшиБКИ вОШЛО |:: 
8 МОДУ ТОЛЬКО ВО ВТОРОЙ ПОЛОВИНЕ [::: 
1980-Х, ДО ЭТОГО Э<РФРЕКТИВНОСТЬ 
НЕЙРОННЫХ СЕТЕЙ 
ПЫТАЛИСЬ УЛУЧШИТЬ, НО 

НИЧЕГО НЕ ПОЛУЧАЛОСЬ. 


ХОРОШО! 


Ч.3. ВЫЗОВЫ ГЛУБОКОГО ОБУЧЕНИЯ 


ооо оо ооо ооо ооо оо ооо $ 


4.3.1. Проблема глубокой: 
нейронной сети: 


2% 0. 2.0.6 9. р. 9.0. 2.9 ооо ооо оо ооо ооо оо оо9о9о $ 


тАк, длЯ НАЧАЛА - 
ПРОБЛЕЛА.. 


КАЗАЛОСЬ БЫ, ЧТО ЕСЛИ УВЕЛИЧИТЬ 
КОЛИЧЕСТВО СКРЫТЫХ СЛОЕВ 
В НЕЙРОННОЙ СЕТИ С ПРЯМЫМ 
ОБУНЧЕННЕМ, КАК НА КАРТИНКЕ, ТО ЕЕ 

Э<$РРЕКТИВНОСТЬ ТОЖЕ ВЫРАСТЕТ, И ОНА 

СМОЖЕТ ВЫПОЛНЯТЬ РАЗНЫЕ ЗАДАЧИ, 


Входной Скрытый Выходной 
слой слой [4 [ 


а <РОРМУЛА ДЛЯ ВЫЧИСЛЕНИЯ 
ОДНАКО В ОБУЧЕНИИ МНОГОСЛОЙНОЙ И Е 
НЕИРОННОЙ СЕТИ МЕТОДОМ 


а НА КАЖДОМ ЭТАПЕ ПРЕДСТАВЛЯЕТ 
ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБОК СОБОМ ПРОИЗЕОДНУЮ 
ПРИ ВОЗВРАЩЕНИИ К КОРРЕКТИРОВКЕ 


СИУГМОЦАНОЙ ЗРУНКЦИИ; 


$(х) = $5(<>)а - 5(5). 
ПРОБЛЕМА ИСНЕЗАЮЩЕГО и 
ГРАДИЕНТА. КАК ОНА СЕБЯ ВЕДЕТ 
8 РЕАЛЬНОЙ Жизни, 


ВЕЛИЧИНЫ ВЕСА ВОЗНИКАЕТ 


ПРОБЛЕМА 
ИСЧНЕЗАЮЩЕГО ГРАДИЕНТА? 


МАКСИМАЛЬНЫЙ 
т: ГРАДИЕНТ - 0,55. 


ДА. 

ЭТО СРАВНИТЕЛЬНО ВЫСОКОЕ 
ЗНАЧЕНИЕ ПОЯВЛЯЕТСЯ, ТОЛЬКО 
КОГДАД ВХОДНЫЕ СИГНАЛЫ РАВНЫ 0 
МАИ БЛИЗКИ К НЕМУ, А В ОСТАЛЬНЫХ 
СЛУЧАЯХ ГРАДИЕНТ вЛИЗНИТСЯ К 0, 


ОГО, ТОГАД ОБУЧЕНИЕ 
НЕ ПРОДВИНЕТСЯ 
СЛИШКОМ ДАЛЕКО 

ОТ ВХОДНОГО СЛОЯ. 


НО ЕСТЬ АВА МЕТОДА , 
РЕШЕНИЯ ПРОБЛЕМЫ! / ПЕРВЫЙ - МЕТОД 
ПРЕДВАРИТЕЛЬНОГО 


ОБУЧЕНИЯ! 


ох 


4.3.2. Хитрости многоступенчатого обучения: 
1. МЕТОД ПРЕДВАРИТЕЛЬНОГО ОБУЧЕНИЯ: 


ПРИ ИСПОЛЬЗОВАНИИ МЕТОДА 
ПРЕДВАРИТЕЛЬНОГО ОБУЧЕНИЯ МЫ ОПРЕДЕЛЯЕМ 
НУЖНЫЕ ПАРАМЕТРЫ ВЕСОВ В САМОМ НАЧАЛЕ, 
ПЕРЕД ОБУЧЕНИЕМ, МЕТОДОМ ОБРАТНОГО 
РАСПРОСТРАНЕНИЯ ОШИБКИ. 


Ничиняем 
обучение! 


2 А 
#” 


ва Е 
Учительский ау 
сигнал 7 


Элемент Элементы 
выходного слоя скрытого слоя 


ТАКИМ ОБРАЗОМ, ВХОДНОЙ СЛОЙ ОДНАКО... 


ЗАРАНЕЕ РЕГУЛИРУЕТ ВЕС САМОГО 
БЛИЗКОГО СКРЫТОГО СЛОЯ, 


Объект 


+—— корректировки 


Входной Скрытый 
слой Слой 


ЗДЕСЬ ВЕСА НЕОБХОДИМЫ ДлЯ ТОГО, 
ЧТОБЫ КОНВЕРТИРОВАТЬ ДАННЫЕ ВВОДА 
В ПРОСТРАНСТВО МЕНЬШЕЙ РАЗМЕРНОСТИ, 

ЧТОБЫ МХ МОЖНО БЫЛО 
КЛАССИФРИЦИРОВАТЬ. 


У 


] т 
м 
Д-ДЕЙСТВИТЕЛЬНО... 
ь \ Е 


Копия 


Входной слой входного слоя 
В Скрытый А 


ТОГАА ПРЕДСТАВЬ, ЧТО 
ПРОБЛЕМА В ТОМ, ЧТО “НАДО 
СЖАТЬ ПРИЗНАКОВОЕ ОПИСАНИЕ 
ОБЪЕКТА, ЧТОБЫ ОНО 
УЛОЖИЛОСЬ В НЕБОЛЬШОЕ 
КОЛИНЕСТВО ЕДИНИЦ 
И С МИНИМАЛЬНЫМИ ПОТЕРЯМИ, 
НАСКОЛЬКО ЭТО ВОЗМОЖНО", 


ОБучение методом обратного распространения ошибок 


ПРЕЖДЕ ВСЕГО СОЗДДЕТСЯ КОПИЯ 
ЭЛЕМЕНТОВ ВХОДНОГО СЛОЯ НАД СКРЫТЫМ 

СЛОЕМ, И ОНА СТАНОВИТСЯ ВЫХОДНЫМ СЛОЕМ. 
ЗАТЕМ ИНЗРОРМАЦИЯ ИЗ ВХОДНОГО СЛОЯ СНОВА 
ЭТО КАК? ПОСТУПДЕТ НА ВЫХОДНОЙ И ПРОХОДИТ ОБУЧЕНИЕ. 
ЭТО ТАК НАЗЫВДЕМЫЬЙ АВТОКОДИРОВЩИК. 


В ЦЕЛОМ КОЛИЧЕСТВО ЭЛЕМЕНТОВ 
ТО ЕСТЬ копия ВХОДНОГО слоя СКРЫТОГО СЛОЯ ПО СРАВНЕНИЮ 
С КОЛИЧЕСТВОМ ЭЛЕМЕНТОВ ВХОДНОГО 
> 
ме и и СЛОЯ НЕВЕЛИКО, М ПОЭТОМУ ОНИ КОПНРУЮТ 
. " ИНОФРОРМАЦИЮ ВХОДНОГО СЛОЯ, ЧТОБЫ 
ВЫХОДНОЙ СЛОН НЕ ПОВТОРЯЛСЯ,. 


Скрытый слой1 


О Копия 


Входной слой 
входного слоя 


Небольшое 
количество элементов Не может повторяться 


БЕЗ ЭТОГО НЕЛЬЗЯ ИЗВЛЕЧЬ 
ПРИЗНАКИ ДАННЫХ? 


ВОТ КАК. 


СКРЫТЫЙ СЛОИ ПОЛУЧАЕТ ЗАДАЧУ 
“ИЗВЛЕЧЬ ИНФРОРМАЦИЮ 
13 ПРОСТРАНСТВА ДАННЫХ, СЖАТОГО 
ДО БОЛЕЕ НИЗКОГО ИЗМЕРЕНИЯ", 
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ооо 


ПОСЛЕ ТОГО КАК НАСТРОЕНЫ ВЕСА 
МЕЖДУ ВХОДНЫМ СЛОЕМ И СКРЫТЫМ 
СЛОЕМ 1, ОНИ ЗРИКСИРУЮТСЯ, ЗАТЕМ 
ОБУЧЕНИЕ ВЕДЕТСЯ МЕЖДУ СКРЫТЫМ 
СЛОЕМ 1 И СКРЫТЫМ СЛОЕМ 2, 

Ц ТАК ПОВТОРЯЕТСЯ ВПЛОТЬ 
ДО ВЫХОДНОГО СЛОЯ. 


Изёлечем 
фажные 
Входной слой Копия признаки! 
Скрытый скрытого 
слойт Скрытый ое у 
слой? () ТЕХ 


320) 


ЕСЛИ НЕ ИЗВЛЕКАТЬ 
ПРИЗНАКИ, ТО, ПОСКОЛЬКУ КОЛИЧЕСТВО 
ЭЛЕМЕНТОВ (УЗЛОВ> УМЕНЬШАЕТСЯ 
ПО МЕРЕ УДАЛЕНИЯ ОТ ВХОДНОГО СЛОЯ, 
иИНЗРОРМАЦИЯ НЕ СОХРАНЯЕТСЯ. 


Завершение 
настройки 


№ 
ОБъект 
настройки 


МЕТОД ПРЕДВАРИТЕЛЬНОГО ОБУЧЕНИЯ 


ПОЗВОЛИЛ РЕШИТЬ ПРОБЛЕМУ ПОСЛЕ РАЗРАБОТКИ ЭТОГО МЕТОДА 


ИСЧЕЗАЮЩЕГО ГРАДИЕНТА е а а и 
и ПРОДОЛЖАТЬ ИЗВЛЕКАТЬ АБСТРАКТНЫЕ ЗРАБ РЕК 
ИНОРОРМАЦИОННЫЕ ВЫРАЖЕНИЯ, НЕНРОННЫХ СЕТЕН, 


СОХРАНЯЯ ИНФРОРМАЦИЮ. , 
ДЕЧСТВИТЕЛЬНО, ПРОРЫВ... 


МЕТ О-В: 


2. Функция АКТИВАЦИИ НАДО ОБРАТИТЬ ВНИМАНИЕ, 


Кинки орон о ооо иво воюювенень в КДК СРУНКЦИЯ АКТИВАЦИИ 
ДРУГОН ПОДХОД К ПРОБЛЕМЕ ИСЧЕЗАЮЩЕГО ОБРАЩДЕТСЯ С СУММОМ 


ГРАДИЕНТА - ЭТО МЕТОД НАСТРОЙКИ ВЕСОВ. 
ЗРУНКЦИИ АКТИВАЦИИ. 


Хочу исиряв8ить 


—+ выход финкиию активлиии! 


Сумма 


весов Функция }) 
активации А 
Вход [ [ 


СИ, 


— 


ВМЕСТО СИГМОЦДЫ, О КОТОРОЙ МЫ ГОВОРИЛИ, ИСПОЛЬЗУЕТСЯ 
УСЕЧЕННАЯ ЛИНЕЙНАЯ <РУНКЦИЯ, ГДЕ (х) = тах(0, 2). 
ЭЛЕМЕНТ, КОТОРЫЙ ИСПОЛЬЗУЕТ ЭТУ ФУНКЦИЮ, 
НАЗЫВДЕТСЯ БЛОКОМ ЛИНЕЙНОЙ РЕКТИФРИКАЦИИ (РЕГИ), 


УСЕНЧЕННАЯ ЛИНЕННАЯ <РУНКЦИЯ - ЭТО ЛИНЕЙНАЯ <РУНКЦИЯ, КОТОРАЯ 
ВОЗВРАЩАЕТ ЗНАЧЕНИЕ Хх, ЕСЛИ Хх ПОЛОЖИТЕЛЬНО, и 0 В ПРОТИВНОМ СЛУЧАЕ. 


0 
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 08 1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 08 1 


Усеченная линейная функция Производная усеченной линейной функции 


В ОТЛИЧИЕ ОТ СИГМОМДЫ, 
ГРАДИЕНТ РАВЕН 1. 


ПРИ ИСПОЛЬЗОВДНИИ БЛОКА ЛИНЕЙНОЙ РЕКТИЗРИКАЦИИ 
ГРАДИЕНТ РАВЕН 1, И ОШИБКА НЕ ИСЧЕЗАЕТ, 
ОДНАКО ВЫХОД МНОГИХ ЭЛЕМЕНТОВ РАВЕН 0, НЕЙРОННАЯ СЕТЬ 
МОЖЕТ С БОЛЬШОЙ СКОРОСТЬЮ СЧИТАТЬ ГРАДИЕНТЫ, 
И ОБУЧЕНЦЕ МОЖНО ВЕСТИ 


БЕЗ ПРЕДВАРИТЕЛЬНОГО ОБУЧЕННЯ., 


КРУТО, НТО МОЖНО ОБОЙТИСЬ 
БЕЗ ПРЕДВАРИТЕЛЬНОГО ОБУЧЕННЯ. 


ПР 
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4.3.4. Хитрости многоступенчатого обучения: 


о | ме 


ЕСЛИ В МОДЕЛИ ЕСТЬ ЭТОТ МЕТОД? 
ПАРАМЕТРЫ С БОЛЬШИМИ 
ВЕСАМИ, ОНИ МОГУТ 
СЛИШКОМ ХОРОШО 


В ГЛУБОКОМ ОБУЧЕННИ, 
КРОМЕ ПРОБЛЕМЫ 


ИСЧЕЗАЮЩЕГО ОБЪЯСНЯТЬ ПРИМЕРЫ 
ГРАДИЕНТА, ЕСТЬ ЕЩЕ В ДАННЫХ ДЛЯ ОБУЧЕНИЯ, 
И ПРОБЛЕМА > 


ПЕРЕОБУЧЕННЯ, 


ЧТОБЫ ИЗБЕЖАТЬ 
ПЕРЕОБУЧЕНИЯ, МОЖНО 
ИСПОЛЬЗОВАТЬ МЕТОД 
ПРОРЕЖИВАНИЯ ОБУЧЕНИЕ ВЕДЕТСЯ 
СОРОРОНТ>, ПРИ КОТОРОМ ПУТЕМ ИСКЛЮЧЕНИЯ 
ПЕРЕОБУЧЕНИЕ СЛУЧАШНЫХ НЕИЙРОНОВ, 
ПРОИСХОДИТ РЕЖЕ, 
ДА УНИВЕРСАЛЬНОСТЬ 
СИСТЕМЫ ПОВЫШАЕТСЯ, ОБУЧЕНИЕ ПУТЕМ 
= ИСКЛЮЧЕНИЯ СЛУЧАЙНЫХ 
ЭЛЕМЕНТОВ? 


ПЕРВЫМ ДЕЛОМ В КАЖДОМ СЛОЕ 
СЛУЧАЙНЫМ ОБРАЗОМ УБИРАЮТСЯ 
ЭЛЕМЕНТЫ В ЗАВИСИМОСТИ ОТ р. НАПРИМЕР, ПРИ р = 0,5 В НЕЙРОННОЙ СЕТИ 
РАБОТДЕТ ПОЛОВИНА ЭЛЕМЕНТОВ, 


Исключение 


0.1 
” й= 0.9%, + 0.1х. — 0.8 


Хотя оба элемента - их, их, - важны, 


> 


Поскольку любой входной элемент во время 


небольшая разница во время обучения обучения может исчезнуть с определенной 
приводит к Большой разнице в весах вероятностью, значения весов выровнены так, 
в окончательном результате. Если величина х\ что только один из них даст правильный ответ. 
в неизвестных данных Будет даже ненамного Значения на входе в неизвестных данных 
меньше, это может привести к ошибочной 


могут немного меняться, но это не важно. 
идентификации. 


А ЗАТЕМ ОБУЧЕНИЕ ВЕДЕТСЯ МЕТОДОМ 
ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБОК 
НА ОДНОМ “МИНИ-ПАКЕТЕ” ДАННЫХ, 


НО ПОЧЕМУ 
ПРИ ИСПОЛЬЗОВАНИИ МЕТОДА 
ПРОРЕЖИВАНИЯ НЕ ПРОИСХОДИТ 


КОГДА ЛОГИСТИЧЕСКАЯ ПЕРЕОБУЧЕНИЯ? 


КЛАССИФРИКАЦИЯ ВЕДЕТСЯ УЖЕ 
ОБУНЕННОЙ НЕЙРОННОЙ СЕТЬЮ, 
ВЕС УВЕЛИЧИВАЕТСЯ В р РАД. 
ПРОИЗВОДИТСЯ ОБУЧЕНИЕ 
НЕСКОЛЬКИХ БЛОКОВ НЕЙРОННОЙ СЕТИ, 


Появление 
градиента 


РЕЗУЛЬТАТЫ УСРЕДНЯЮТСЯ. 


Распределение 


Сигмоидная функция 


СУЩЕСТВУЕТ ТЕОРНЯ, 
ЧТО, ВО-ПЕРВЫХ, БЛАГОДАРЯ СНИЖЕНИЮ 
СТЕПЕНИ СВОБОДЫ ПРОИСХОДИТ 
РЕГУЛЯРИЗАЦИЯ, А ВО-ВТОРЫХ, ГРАДЧЕНТ 
ОСТАЕТСЯ ТАКИМ ЖЕ, ДАЖЕ НЕСМОТРЯ 
НА ТО, ЧТО РАСПРЕДЕЛЕНИЕ ВЗВЕШЕННОЙ 
СУММЫ ВЕСОВ Й НА ВХОДЕ НА УЗЕЛ РАСТЕТ, 


_ 0.8 


КОНЕЧНО, ДО СИХ ПОР СУЩЕСТВУЮТ РАЗНОГЛАСИЯ 
СРЕДИ УЧЕНЫХ, НО, КАК БЫ ТО НИ БЫЛО, ЕСЛИ ИЗБЕЖАТЬ 
МНОГОКРАТНОГО ВВОДА ОДНИХ и ТЕХ ЖЕ ДАННЫХ 
В НЕНРОННЫХ СЕТЯХ С ТАКОЙ ЖЕ СТРУКТУРОШ, 

ТО МОЖНО ИЗБЕЖАТЬ ПЕРЕОБУЧЕННЯ, 


НЕЛЬЗЯ, 
ЧТОБЫ ГЛУБОКАЯ СЕТЬ 
ВСЕ ЗАПОМННАЛА! 


МЫ ГОВОРИЛИ О ХИТРОСТЯХ, 
КОТОРЫЕ ПОМОГАЮТ РЕШИТЬ ПРОБЛЕМЫ 
МНОГОСЛОЙНЫХ НЕЙРОННЫХ СЕТЕ, , 
А ТЕПЕРЬ ПОГОВОРИМ О ЕЩЕ ОДНОМ И ЧТО ЭТО ЗА МЕТОД? 
МЕТОДЕ ОБУЧЕННЯ, 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


ЭТО МЕТОД СПЕЦИАЛИЗАЦИИ ЗАДАНИЙ В СТРУКТУРЕ НЕЙРОННОЙ 
СЕТИ. ПРИМЕРОМ СПЕЦНАЛИЗИРОВАННОЙ НЕНРОННОЙ СЕТИ СЛУЖИТ 
СВЕРТОЧНАЯ НЕПЙРОННАЯ СЕТЬ, КОТОРАЯ ИСПОЛЬЗУЕТСЯ 
ПРИ РАСПОЗНАВАНИИ ИЗОБРАЖЕНИЙ, 


РАСПОЗНАВАНИЕ 
лиц 


НЕДАВНО ОНА СТАЛА ОТЛИЧНО 
РАСПОЗНАВАТЬ ИЗОБРАЖЕНИЯ, 


НА РИСУНКЕ ПОКАЗАНА НЕЙРОННАЯ СЕТЬ, 
ГАЕ ЧЕРЕДУЮТСЯ СЛОМ СВЕРТКИ ЦИ СЛОИ ПУЛИНГА, 
ПОСЛЕДНИЙ СЛОМ ПУЛИНГА ПОЛУЧАЕТ ВЫВОД, 
И НА НЕМ РАЗМЕЩАЕТСЯ ОБЫННАЯ НЕНРОННАЯ СЕТЬ. 


Входной слой 


Нейронная 
сеть 


Слой свертки Слойпулинга Слой свертки Слой пулинга 


РАССМОТРИМ, кк \ 
РАБОТДЕТ СВЕРТОЧНЫЙ || РОН РЕ 


СЛОЙ ПРИ ПОМОЩИ [у] ВЫДЕЛЯЕТСЯ ПАТТЕРН, НАПРИМЕР <РИЛЬТР, 
НАЛОЖЕНИЯ «РИЛЬТРА, КДК НА ИЗОБРАЖЕНИИ, ПРЕДСТАВЛЯЮЩИЙ 
= СОБОЙ МАЛЕНЬКУЮ КАРТИНКУ 3Х3, ТАК? 


Развертка изображения 
по пикселям 


Значение изображения 
конвертируется в 


22 
2, ФуйнрлняИ 


РИЛЬТРА? 


Фильтр выделения 
края й 


Данные изображения х 


ФРИЛЬР ИЗОБРАЖЕНИЯ НАКЛАДЫВАДЕТСЯ НА КАЖДЬЙ р р 
ПИКСЕЛЬ ЕГО РАЗВЕРТКИ, И ИЗ ИЗОБРАЖЕНИЯ В ВЕРТИКАЛЬНОМ 
ВЫДЕЛЯЕТСЯ ПАТТЕРН, В ЭТОМ ПРИМЕРЕ <РИЛЬТР НАПРАВЛЕНИИ? НО Я ВИЖУ 
ВЫДЕЛЕНИЯ КРАЯ БУДЕТ РЕАГУРОВАТЬ ТОЛЬКО РЯДЫ ЦИФРР: 
НА ИЗМЕНЕНИЕ ЦВЕТА В ВЕРТИКАЛЬНОМ 10. 
НАПРАВЛЕННИ, 


НАПРИМЕР, ИСХОДНОЕ ИЗОБРАЖЕНИЕ - МОНОХРОМНОЕ, РАЗМЕРОМ 
9х9 и ПРЕДСТАВЛЯЕТ СОБОЙ ВЕРТИКАЛЬНУЮ ПОЛОСУ. ТОГДА 
МОЖНО ЗАПИСАТЬ ЕГО ЦИФРРАМИ ТАк: 0 - БЕЛЬШ, ДА | - ЧЕРНЫЙ. 


НА ИЗОБРАЖЕНИЕ НАКЛАДЫВДЕТСЯ <РИЛЬТР, 
И ИЩЕТСЯ ПАТТЕРН, НАПРИМЕР, ЕСЛИ <РИЛЬТР 
НАКЛАДЫВАДЕТСЯ НА КАРТИНКУ СЛЕВА, 
ТО ЗНАЧЕНИЯ ПЕРЕМНОЖАЮТСЯ 
и стдноватса тАвными (0. 


0х -1-+0хХ0-+0Х 1--. 


Изображение Плоское 
изображение 


А ЧТО, ЕСЛИ ПОМЕНЯТЬ ЗНАЧЕНИЯ 
В ЦЕНТРАЛЬНОЙ ВЕРТИКАЛЬНОЙ ПОЛОСЕ 
РИЛЬТРАР 


Наложение 


* 


Изображение ТОГДА ПРИ УМНОЖЕНИИ 


Изображение  Ссвертикальной И СЛОЖЕНИИ ПОЛУЧИТСЯ 3. 
полосой 


3 ЖЕ БОЛЬШЕ, ЧЕМ 02 
ПРИ НАЛОЖЕНИИ <РИЛЬТРА ТОЛЬКО ВЕРТИКАЛЬНАЯ 
ПОЛОСА БУДЕТ ИМЕТЬ БОЛЬШИЕ ЗНАНЕНИЯ, 
ЗНАНИТ, МОЖНО ВЫДЕЛИТЬ ПАТТЕРН. 


А ЧТО ПОЛУЧИТСЯ, ЕСЛИ МЫ ВОЗЬМЕМ ИЗОБРАЖЕНИЕ 
С ГОРИЗОНТАЛЬНОЙ ПОЛОСОЙ И НАЛОЖИМ НА НЕГО 
ВЕРТИКАЛЬНЫЙ <РИЛЬТР ВЫДЕЛЕНИЯ КРАЯ? 


ооо ооо 010 
ооо ооо 010 
ооо ооо 010 
ЕЕ УЕ 
вара 
пни 


НУ, ЕСЛИ ПЕРЕМНОЖИТЬ, 


= ор 
11| 5 |- 101 
01] 


БУДЕТ 0. 


ДАЖЕ ЕСЛИ У НАС БУДЕТ 
ГОРИЗОНТАЛЬНАЯ ПОЛОСА, ТО ВСЕ Д ЕСЛИ ХОТИМ еЫДЕЛИТЬ 
УЧАСТКОВ С ОДИНАКОВОЙ МОЩНОСТЬЮ о 
<—1 СПРАВА и —1 СЛЕВА» ПОЛУЧИТСЯ 0, | 
ИНЫМИ СЛОВАМИ, ЗРИЛЬТР ВЫДЕЛЕНИЯ 
КРАЯ НЕ СМОЖЕТ ВЫДЕЛИТЬ ПАТТЕРН. 


ДА. НА ПЕРВОМ СЛОЕ СВЕРТКИ КАК РАЗ 
И ОПРЕДЕЛЯЕТСЯ КОЛИЧЕСТВО <РИЛЬТРОВ 
ТОГО ЖЕ РАЗМЕРА, ЧТО И ИЗОБРАЖЕНИЕ 
НА ВХОДЕ, НЕОБХОДИМЫХ ДЛЯ ИЗВЛЕЧЕНИЯ 
ПРИЗНАКОВ, 


ПОСМОТРИ НА КАРТИНКУ, ЗДЕСЬ 

ОПЕРАЦИЯ БУДЕТ ПРОВОДИТЬСЯ 

В СООТВЕТСТВИИ С ТРЕМЯ ТИПАМИ —_— 

<РИЛЬТРОВ, КОТОРЫЕ БЫЛИ и ^ = 3 

ОТОБРАНЫ НА ПЕРВОМ г 3 [С] 

СЛОЕ СВЕРТКН. угла Развертка фильтра с самыми 
Большими величинами данной 

территории 


32 
2 — 
Е 
горизонтальной 
ыы 
Повторение свертки 


ипулинга 


Входное 


изображение 
о 


Распознавание 
диагонали Информация после 
понижающей 


Фильтры = Совокупность точек, где Был 
р обнаружен паттерн фильтра  Передискретизации 


(после использования 
Свертка функции активации] Пулинг 


НТОБЫ РАСПОЗНАТЬ БУКВУ А, ИСПОЛЬЗУЮТСЯ 
$РИЛЬТРЫ УГЛА, ГОРИЗОНТАЛИ ЦИ ДЧАГОНАЛИ - 
ВСЕГО ТРИ <РИЛЬТРА, 


КАЖДЫЙ ЭЛЕМЕНТ СВЕРТОЧНОГО СЛОЯ 
СВЯЗАН ТОЛЬКО С ЧАСТЬЮ ВХОДНОГО ИЗОБРАЖЕННЯ, 
И ВЕС ЕГО РАСПРЕДЕЛЯЕТСЯ МЕЖДУ ВСЕМИ 
НЕНРОНАМИ. ОБЛАСТЬ ЭТОЙ СВЯЗЦи СООТВЕТСТВУЕТ 
РАЗМЕРУ <РИЛЬТРА И НАЗЫВАЕТСЯ 
РЕЦЕПТИВНЫМ ПОЛЕМ. 


ТО ЕСТЬ ЗРИЛЬТРЫ ТОЧНО 
ТАК ЖЕ ВЫДЕЛЯЮТ 
ПАТТЕРНЫ, 


НАПРИМЕР, ЕСЛИ НЕОБХОДИМО 
РАСПОЗНАТЬ РУКОПИСНЬЫИ ТЕКСТ, 
ВЕДЬ ВСЕ ПИШУТ ПО-РАЗНОМУ, НЕ ТАК ЛИ? 


ДА, НО НА СЛЕДУЮЩЕМ СЛОЕ ПУЛИНГА 
НЕОБХОДИМО СЖАТЬ ПОЛУЧЕННЫЕ ДАННЫЕ, 
ОТРЕГУЛИРОВАВ ПРИЗНАКИ. 


—\ 


Информация после сжатия 
Объединенные (понижающей 
данные передискретизации) 


фильтра Пулинг 


А ПОЧЕМУ? 


ПОЭТОМУ В СЛОЕ ПУЛИНГА 
УБИРАЮТСЯ МЕЛКИЕ 
ДЕТАЛИ ИНЗРОРМАНЦИИ, 
ЧТОБЫ УМЕНЬШИТЬ 


ПОНЕРК У ВСЕХ ЛЮДЕЙ РАЗЛИЧИЯ. 
РАЗНЫЙ, 


СЛОЙ ПУЛИНГА ОТЛИНДЕТСЯ 
ОТ СЛОЯ СВЕРТКИ МЕНЬШИМ 
КОЛИНЕСТВОМ ЭЛЕМЕНТОВ, 
НО У КАЖДОГО ЭЛЕМЕНТА ТАКИЕ 
ЖЕ РЕЦЕПТИВНЫЕ ПОЛЯ, 


Информация 
о том, что 
здесь есть 


Информация о том, 
что здесь есть 
наклон справа вниз 


Входное 
изображение Фильтр 


Большое 
Слой свертки значение 


ЭТО КАК? 


Глядя НА ЗНАЧЕНИЕ КАЖДОГО 
ЭЛЕМЕНТА, МОЖНО ВЫВЕСТИ СРЕДНИЕ 
И САМЫЕ БОЛЬШИЕ ЗНАНЕННЯ, 
ТАКИМ ОБРАЗОМ МОЖНО СГЛАДИТЬ 
ИЗМЕНЕНИЯ ПОЗИЦИИ ПАТТЕРНА 
НА РЕЦЕПТИВНОЛМ ПОЛЕ. 


Информация о том, что 
в этой области есть угол 


© 


Выражение, 
Информация о том, которое собирает 
что в этой области всю информацию 


есть наклон справа 


ВНИЗ 


Слой пулинга 


ЧТОБЫ ТЫ ПОНЯЛ, 


КАК РАБОТДЕТ СВЕРТОЧНАЯ АЛЯ ЭТОГО НЕОБХОДИМО ‚ 
НЕНРОННАЯ СЕТЬ, БОЛЬШОЕ КОЛИЧЕСТВО <РОТОГРАФРЦИ, 


ПРОДЕМОНСТРИРУЕМ И ГДЕ МОЖНО ЕГО НАЙТИР 
ВЫСОКОЗЭ9РФРЕКТИВНОЕ 
РАСПОЗНАВАНИЕ КАРТИНОК, 


ДЕЙСТВИТЕЛЬНО, 


В СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ, ПО СРАВНЕНИЮ С НЕНРОННЫМИ СЕТЯМИ, 
ГДЕ ВСЕ ЭЛЕМЕНТЫ СОЕДИНЕНЫ, КОЛИНЕСТВО МЕЖЭЛЕМЕНТНЫХ СВЯЗЕЙ 
НЕВЫСОКО, ТАК КАК СУЩЕСТВУЕТ СТРУКТУРНОЕ ОГРАНИНЕННИЕ - 
ОПРЕДЕЛЕННЫЕ ЭЛЕМЕНТЫ ПОЛУЧАЮТ ТОЛЬКО ВЫХОДНЫЕ ДАННЫЕ КРОМЕ ТОГО, 
С ОПРЕДЕЛЕННОГО ПРЕДЫДУЩЕГО СЛОЯ, КАЖДЬЙ СЛОЙ 
СВЕРТКИ РАСПРЕДЕЛЯЕТ ВЕСА 
ДЛЯ РЕЦЕПТИВНЫХ ПОЛЕЙ, ПОЭТОМУ 
ПАРАМЕТРЫ, ПРИ ПОМОЩИ КОТОРЫХ 
ДОЛЖНО ВЕСТИСЬ ОБУЧЕНИЕ, 
БУДУТ ЗНАЧИТЕЛЬНО УМЕНЬШЕНЫ. 
ПОЭТОМУ МОЖНО ПОСТРОИТЬ 
МНОГОСЛОННУЮ НЕЙРОННУЮ 
СЕТЬ, В КОТОРУЮ МОЖНО 
ВВОДИТЬ ИЗОБРАЖЕНИЯ 
НАПРЯМУЮ, А ЦЕЛЬЮ 
ОБУЧЕНИЯ МОЖЕТ 
СТАТЬ ИЗВЛЕЧЕНИЕ 
ПРИЗНАКОВ, 


Получение выходных данных 
из определенной области 


Общий вес всех 
рецептивных полей 
А ТЕПЕРЬ ПОПРОБУЕМ 


РАСПОЗНАТЬ ИЗОБРАЖЕНИЯ 
НЗ БАЗЫ ДАННЫХ ММТЗТ. 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


Для кодирования глубокого обучения в Ру{оп лучше всего использо- 
вать библиотеки. 


Здесь мы будем использовать библиотеку Кегаз. Кегаз представляет со- 
бой надстройку над фреймворками Реер!еагп!п4}, Тепзогю\/ и 'ТБеа- 
по. Поскольку она хорошо описана, кодирование для задач глубокого 
обучения будет несложным. 


ММС$Т - база данных рукописных изображений символов. Одно 
изображение представляет собой квадрат размером 28х28 пикселей со 
значением насыщенности от 0 до 255. 


Мы используем 60 000 изображений для обучения и 10 000 для оцен- 
ки. ММТФТ автоматически загрузится в Кегаз, а для разделения изобра- 
жения на данные для обучения и для оценки используем метод пишру 
аггау. 


Ггом Кега$.Чафазее$ 1трогЕ ппу $ 
(Х_Егазл, у _{гафп), (Х_4е$Е, у_%е$%) = тпа5%. 1оад_Чафа() 


Затем немного обработаем данные. Сначала преобразуем вход в стан- 
дартную систему распознавания изображений сверточной нейронной 
сети. 


Ч.3. ВЫЗОВЫ ГЛУБОКОГО ОБУЧЕНИЯ 


Поскольку обычно распознаются цветные изображения, в одном 
изображении будет трехмерный тензор (количество пикселов по вер- 
тикали х количество пикселов по горизонтали Хх значение цвета), 
а в данных для ввода будет четырехмерный тензор, к которому доба- 
вится количество изображений. 


Так как изображения в градациях серого, которые мы используем сей- 
час, будут описаны количеством изображений х количеством пикселей 
по вертикали х количеством пикселей по горизонтали, четвертое изме- 
рение тензора будет представлено «цветом» со значением 1. 


Поскольку на входе нейронной сети будет небольшая область значе- 
ний от 0 до 1, нет необходимости на первом этапе настраивать вес или 
разряды коэффициентов для обучения. Поскольку максимальная ве- 
личина пиксела равна 255, после преобразования целочисленного ти- 
па в тип с плавающей запятой выполнится операция деления всех 
данных на 255. 


19_гом$, 1т9_с01$ = 28, 28 


Х_Егалп = Х_{галп.гезВаре(Х_+га1п.5Наре[0], 1тд_гои$, 1т9_со1$, 1) 
Х +е5% = Х_{е5{.гезВаре(Х_4е$е.5Варе[0], 1т9_гом$, 1тд9_со1$, 1) 
1при*_$Наре = (1т9_гои$, 4т9_со1$, 1) 


Х_Егадп = Х_{галп.ауре('Е\ оа{32') / 255 
Х ке5% = Х {е5{.аз{уре('Е\ оа{32') /255 


Далее настроим выход. Правильной меткой будет целое число от 0 до 
9, которым обозначаются изображения, поэтому нужен десятимерный 
вектор, называющийся опе-Бо*. 


При использовании унитарного кодирования только один выход ра- 
вен 1, а оставшиеся - 0. На выходном слое нейронной сети количество 
классов (на этот раз 10) будет преобразовано в формат, который будет 
легко подаваться в качестве учительского сигнала. 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


А теперь определим структуру сверточной нейронной сети. У нас будет 
по два слоя свертки (фильтр размером 3х3) и пулинга (размер 2х2), вы- 
ход будет конвертирован в одномерный вектор и перенаправлен на 
двухслойную нейронную сеть для классификации. В качестве функции 
активации на выходном слое используется зоЙтах, а на остальных 
ВЕГО. 


Применяя метод затилагу Кегаз, посмотрим структуру полученной 
нейросети. 


Ч.3. ВЫЗОВЫ ГЛУБОКОГО ОБУЧЕНИЯ 


При помощи метода сотарЦе найдем сайехонса!| сго$$ ешгору и гпазргор, 
а также проведем обучение методом Ё&. 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


Точность распознавания - 98,78 %. Она очень высокая. 


Ч.3. ВЫЗОВЫ ГЛУБОКОГО ОБУЧЕНИЯ 


ДА, В ЦЕЛОМ ПОНЯЛ. 
НУ ЧТО, ИЗВИНИТЕ, ЧТО ЗАНЯЛ 
ВСЕ ПОНЯТНО? МНОГО ВРЕМЕНИ. 


НИЧЕГО СТРАШНОГО, 
Я ЛЮБЛЮ ПОВТОРЯТЬ 
МАТЕРНАЛ, КОГДА 
КОГО-ТО УНУ, 


ПОНДУ ПИСАТЬ ПРОГРАММУ 
ДЛЯ СОРТИРОВКИ ВИНОГРАДА, 


СПАСИБО! 


СООБЩЕНИЕ 
ПРИШЛО, 


иков› 


Ц\ 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


СЕЙЧАС СИСТЕМА РАСПОЗНАЕТ 


ВИНОГРАД С ТОЧНОСТЬЮ ДО 98 $. 
ВСЕ ЕЩЕ ЗАНЯТ, 


КНЁХАРАР 
Попросил прислать данные для обучения = 
множество фотографий винограда. 


Выделил обучающую, тестовую и контрольную 
выборки. 


Сделал систему сортировки - сверточную 
нейронную сеть на основании данных для 
обучения. 


Оценил при помощи данных для анализа, 
откорректировал фильтры и элементы. 


Наконец, протестировал на тестовой выборке. 


ТЕПЕРЬ ДВЕ ОШИБКИ ИЗ 10О ЗРОТОГРДЕРНИ, 
ЗНАНИТ, НАДО ПОДНЯТЬ ЭРФРЕКТИВНОСТЬ. 


ТОГДА МОЖЕШЬ ЦАЛИ, 
НАВЕРНОЕ, 


Д ТЫ МЕНЯ ЛАПШОЙ 
НЕ УГОСТИШЬ? 


Я ЖЕ НЕДАВНО РЕ. 
ТЕБЯ УГОЩАЛ! [ею 
Кочалчалчаа и И == 


КАК-ТО МАЛОВАТО 
ЗА МОЮ ПОМОЩЬ.., 


ЭТО ХАСИМОТО! 


ЭТО ТЕБЯ. 


УГОВОРИ ИХ 
НА &8 %, 
ПОМОЩНИК! 


ЭТО КИЁХАРА ИЗ МЭРИ, 
ПРОСТНТЕ, ЕСЛИ НЕ ВОВРЕМЯ. 


Д, КНЁХАРА-САН! ЗДРАВСТВУИТЕ. 
ВЫ О СОРТИРОВКЕ ВИНОГРАДА? 
ВСЕ НАСТРОИЛИ? 


ХА-ХА-ХА, КНЁХАРА-САН, 
ДА, НО ТОЧНОСТЬ и а8 % ХВАТИТ, 
СОСТАВЛЯЕТ а8 $, 


ЛЮДИ НА 5 % ОШИБАЮТСЯ, 
ТАК ЧТО ВСЕ В ПОРЯДКЕ! 


НУ... 
МЫ БЫ ХОТЕЛИ ЕЕ 
ЕЩЕ УВЕЛИЧИТЬ, 
ЕСЛИ МОЖНО... 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


СПАСИБО ЗА ВАШУ УСЕРДНУЮ РАБОТУ! 
ВЫ НАС ОЧЕНЬ ВЫРУЧИЛИ! 


ДА НЕТ, 
СПАСИБО ВАМ... 


МОЛОДЕЦ, КНЁХАРА! 
ПОШЛИ УЖИНАТЬ... 


ЖАЛЬ Я НЕ СМОГ 
УЛУЧШИТЬ 
ПРОИЗВОДИТЕЛЬНОСТЬ 
ДО ПРЕДЕЛА... БУДУ СТАРАТЬСЯ. 


Как важно, ито сегодня 
я услышииял «сийсибо» 


У МЕНЯ ЕЩЕ МАЛО 

ОПЫТА, НО Я УЖЕ 

МОГУ ПОМОГАТЬ 
людям... 


БЫСТРЕЙ, КНЁХАРА. 


В кабинете у Саяка (5) 


Математическое повторение (4) 


Ну, надо было мне его сначала научить как следует... Но хоро- 
шо, что он исправился. 


Да, когда он учился, положиться на него было нельзя. Но сей- 
час он, кажется, стал получше... 


Ну... Да вроде бы и нет, не знаю. Когда можно будет встретить- 
ся, я дам знать. 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


Если привыкнуть к тензорам, то его код становится простым. 
Тензор — многомерное пространство на языке программиро- 
вания. 


Ну, представь себе черно-белое изображение. Пусть черный - 0, 
а белый - 255, а цвета между ними могут принимать значения 
от 1 до 254. Чем темнее серый, тем меньше число, а чем светлее, 
тем больше. И как мы выразим данные, которые расположены 
по горизонтали и вертикали в виде прямоугольника? 


В КАБИНЕТЕ У САЯКА (5). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (Ч) 


Ага. Эта двухмерная фигура, которую можно представить в 
виде матрицы. 


А теперь возьмем цветное изображение. Обычно используется 
формат ВСВ, где 1 пиксель может иметь значение красного, зе- 
леного или синего цвета. При сложении трех цветов получает- 
ся еще один цвет, и можно записывать разные выражения. 


Как тогда будут представлены данные? 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


Поскольку красный, зеленый и синий представлены двумер- 
ными массивами одного размера, то если их сгруппировать, 
получится трехмерный массив? 


Да, численное выражение структуры данных в таком случае 
будет выражено ЗО-тензором. 


А еще есть 4)-тензор, который состоит из нескольких ЗО- 
изображений... 


Как нескольких цветных изображений... И это все данные для 
обучения? 


Именно. Какой тензор будет использоваться для видео? 


В КАБИНЕТЕ У САЯКА (5). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (Ч) 


Но в машинном обучении используются только они. В глубо- 
ком обучении, чтобы упростить последнюю классификацию, 
преобразуют тензоры, и все становится легко. 


Да вроде... Но пока еще думаю... 


ГЛАВА Ч. ГЛУБОКОЕ ОБУЧЕНИЕ 


ГЛАВА 5. 


АНСАМЕЛЕВЫЕ 
МЕТОДЫ 


= 
СКАЖИ 
ПАРОЛЬ! и! 


ИА ГЛАВА 5. АНСАМБЛЕВЫЕ МЕТОДЫ 


ЭТО ОТ <РЕРМЕРОВ, 
О КОТОРЫХ Я ГОВОРИЛ, 
ОНИ МНЕ ВИНОГРАДА 
НАДАДРИЛИ. 


ПРОХОД! 
ЧТО СЕГОДНЯ? 


ОГО, СКОЛЬКО 
КОРОБОК. 


{ К». 
АИ м 


КОНЕЧНО! 


УГОЩАНТЕСЬ. 


\\ 
Я 


рр н-м> 


И 


И 


ОТКУДА ВЫ ЗНАЕТЕ ШУТКУ 
ПРО “СКАЖИ ПАРОЛЬ"? 


ВЫГЛЯДИТ АППЕТИТНО. 


НУ НТО, ПОЛУНИЛОСЬ ДА, И Я ПОНЯЛ, О ЧЕМ ВЫ ТОГАА 
СОРТИРОВАТЬ ВИНОГРАД? ГОВОРИЛИ, - ЧТО ИНОГДА НЕЛОВЕЧЕСКИЕ 
СПОСОБНОСТИ НЕ НДУТ В СРАВНЕНИЕ 
С МАШИННЫМ ОБУЧЕНИЕМ. 


ХОТЬ Я И НЕ МОГУ СДЕЛАТЬ КРУТУЮ 
СИСТЕМУ МИ, КОТОРАЯ РЕШИЛА БЫ ВСЕ, 
ЧТО МОЖНО, НО Я УЖЕ МОГУ ДЕЛАТЬ ТАК, 
ЧТОБЫ МАШИННОЕ ОБУЧЕНИЕ 
ПОМОГАЛО ЛЮДЯМ. 


о \\ . ЭТО ВСЕ БЛАГОДАРЯ ВАМ! 


ГЛАВА 5. АНСАМБЛЕВЫЕ МЕТОДЫ 


М-М-М. 


А РАЗВЕ ТЫ НЕ ЗАНЯТ? 
ПЕРЕОТКРЫТЬ 


] о | | 
ЕАО 
НУ.. ДА... Я ДУМАЮ, 
НЕ ОТКРЫТЬ ЛИ НАМ СНОВА 
САЙТ, КОТОРЫЙ ОПРЕДЕЛЯЛ 
ВЕРОЯТНОСТЬ ЗАБОЛЕТЬ 


ДИДБЕТОМ, ОБУНИВ ЕГО ПРИ 
ПОМОЩИ ГЛУБОКОГО ОБУЧЕНИЯ? 


НЕ ХОЧЕШЬ НЕМНОГО 
ПОУЧИТЬСЯ? 


А У ТЕБЯ ЕСТЬ ВРЕМЯ? 


и Я ИЗ НЕГО СБЕЖАЛ извини, киЁХАРА! 


ВОТ ОПЯТЬ | в ПРОШЛЫЙ РАЗ. ЗАСТАВИЛА ЖААТЬ. 
СЕМЕЙНЫЙ - 
РЕСТОРАНЧИК. 


СЕГОДНЯ 
БУДУ УЧИТЬСЯ 
ДО КОНЦА 
И НЕ СБЕГУ, 


ДЛЯ МЕНЯ, ЧТО ЛИ? 
БЫТЬ НЕ МОЖЕТ... 


ЗАБЫЛА, ЧТО МЫ ПОТОМ 
ПООБЕДДЕМ ТУТ С СЕМЬЕН. 


НУ ЧТО, Адвди я сяду 
РЯДОМ С ТОБОИ. 


Я СХОДИЛА 
ПЕРЕОДЕТЬСЯ. 


ЧЕРТ! 
ВСЯ УВЕРЕННОСТЬ ПРОПАЛА. 


ТДК, МНЕ, ПОЖАЛУЙСТА, а | \ 
ТЫКВЕННЫЙ ПИРОГ, ТОРТ, ИВ ЗР м 3 
КАШТАНОВОЕ МОРОЖЕНОЕ... 


ГЛАВА 5. АНСАМБЛЕВЫЕ МЕТОДЫ 


СЕГОДНЯ ПОГОВОРИМ 


ОБ АНСАМЕЛЕВЫХ ИЗОБРАЖЕНИЯМИ ИЛИ ЕСТЕСТВЕННОЙ РЕЧЬЮ, 


МЕТОДАХ! 


ОДИН ИЗ СПОСОБОВ СПРАВИТЬСЯ 
СО СЛОЖНЫМИ ПРИЗНАКАМИ - 
ОБУЧЕНИЕ ПРИ ПОМОЩИ 
АНСАМБЕЛЕВЫХ МЕТОДОВ. 


КАКИХ МЕТОДОВ? 


ОДНАКО ЭТОТ МЕТОД 
НАДО ИСПОЛЬЗОВАТЬ С УМОМ - 
НТО, ЕСЛИ ТРИ ЧЕЛОВЕКА 
СКАЖУТ ОДНО и ТО ЖЕ? 


ДА... ХОТЯ ГЛУБОКОЕ ОБУЧЕНИЕ ВПОЛНЕ 
УСПЕШНО СПРАВЛЯЕТСЯ С КЛАССИФРИКАЦИЕЙ 


Пол | Возраст | ИМТ Иез | И 
глюкозы | ление 
ж 65 22 180 135 
м 60 28 200 140 Да 
м 75 21 175 120 Нет 
ж 72 25 195 140 Нет 
Отношения между —— _—— 
Близкими данными Данные необязательно должны Быть 


ДАННЫХ, СВЯЗАННЫХ СО ЗВУКОМ, 


НЕОБХОДИМО СМОТРЕТЬ, 
КАК ОНО БУДЕТ РАБОТАТЬ 
СО СЛОЖНЫМИ ПРИЗНАКАМИ 
В КАЖДОМ ОТДЕЛЬНОМ СЛУЧАЕ. 


Данные со множеством признаков 


Близкими 


ЭТО МЕТОД, 

ПРИ КОТОРОМ СОЕДИНЯЮТСЯ 
НЕСКОЛЬКО ОБУЧАЮЩИХ АЛГОРИТМОВ, 
И ИХ СОЧЕТАНИЕ ОКАЗЫВАЕТСЯ 
БОЛЕЕ ЭРФРЕКТИВНЫМ, 


ГОВОРЯТ ЖЕ, 
ГАЕ ТРОЕ - ТАМ 
МУДРОСТЬ САМОГО 
монНДЗЮ", 


ЧТО КАСДЕТСЯ ЭФРФРЕКТИВНОСТИ, 
ТО НЕТ НИКАКОЙ РАЗНИЦЫ, 
ОДИН ИЛИ НЕСКОЛЬКО ЧЕЛОВЕК ТАК СКАЗАЛИ. 


ДА! НО СЕКРЕТ АНСАМБЕЛЕВЫХ МЕТОДОВ В ТОМ, 
НТО У КАЖДОГО СВОЙ СОБСТВЕННЫЙ АЛГОРИТМ. 


ЕСТЬ ТРИ СЕКРЕТА, 
КОТОРЫЕ ИСПОЛЬЗУЮТСЯ 
В АНСАМБЕЛЕВЫХ МЕТОДАХ, 


И ПЕРВЫИ и3 НИХ - 
БЭГГИНГ! 


ГЛАВА 5. АНСАМБЛЕВЫЕ МЕТОДЫ 


ПЕРВАЯ МЫСЛЬ: ЧТОБЫ СДЕЛАТЬ 
АЛГОРИТМЫ С ОТЛИНАЮЩИМСЯ 
ПОВЕДЕНИЕМ, НУЖНО ИСПОЛЬЗОВАТЬ 
НЕСКОЛЬКО ОТЛИЧАЮЩИХСЯ НАБОРОВ 
ДАННЫХ ДЛЯ ОБУЧЕННЯ, 


/ Данные: 
для обучен 


Данные для обучения 


Выборка Выборка Выборка 
свозвращением  свозвращением с возвращением 


Данные1 Данные 2 ... Данные т 


Классифи- Классифи- Классифи- 
катор1 катор 2 катор и 


| | | 


Результатт1  Результатг Результат т 


Мажоритарное голосование 
(та/ог®у мое] 


Результат 


Ввод 


НО, НАВЕРНОЕ, 
ЭТО ОЧЕНЬ ТРУДНО - 
ПОДГОТОВИТЬ РАЗНЫЕ 
ДАННЫЕ ДЛЯ ОБУЧЕНИЯ? 


ПРИ БЭГГИЫНГЕ ИЗ ДАННЫХ 
ДЛЯ ОБУЧЕНИЯ ДЕЛДЕТСЯ 
ВЫБОРКА С ВОЗВРАЩЕНИЕМ, 
КОГДА ИЗ ИСХОДНЫХ ДАННЫХ 
ВЫБИРАЕТСЯ НЕКОТОРОЕ 
КОЛИНЕСТВО НАБОРОВ 
ДАННЫХ ОДИНАКОВОГО 
РАЗМЕРА, 

ЗАТЕМ ДЛЯ КАЖДОГО 
НАБОРА ДАННЫХ СОЗДДЕТСЯ 
КЛАССИФРИКАТОР ПРИ ПОМОЩИ 
ОДНОГО И ТОГО ЖЕ 
АЛГОРИТМА. 


ПРЫ ЭТОМ МЕТОДЕ ДАННЫЕ, 
ПОПАВШИЕ В ВЫБОРКУ, 


ЗАПИСЫВАЮТСЯ И ВОЗВРАЩАЮТСЯ. 


КАКНЕ-ТО ДАННЫЕ МОГУТ 


ПОПАСТЬ В ВЫБОРКУ МНОГО РАЗ, 


ДАВАЙ ПОСЧИТДЕМ, 
НАСКОЛЬКО ПРИ ИСПОЛЬЗОВАНИИ ЭТОГО МЕТОДА 
БУДУТ ОТЛИЧАТЬСЯ ДАННЫЕ В РАЗНЫХ ВЫБОРКАХ! 


А КАКИЕ-ТО - НИ РАЗУ, 


Допустим, в наборе данных есть М отдельных элементов. Какова веро- 
ятность, что один элемент не попадет в выборку? 


Да. А вероятность того, что данные не попадут в выборку М раз, равна 
Х 
1 
| м Таким образом, рассчитаем вероятность того, что данные не 


попадут в выборку... 


Если М = 10, то она равна 0,349. 
Если М = 100, то 0,366. 
Если М —> со, то вероятность равна 1/е = 0,368. 


Именно! При таких расчетах ясно, каким бы № ни было, при выборке 
с возвращением примерно *8 исходных данных не попадут в нее. 


ГЛАВА 5. АНСАМБЛЕВЫЕ МЕТОДЫ 


КАКОМ МЕТОД МАШИННОГО ОБУЧЕНИЯ МЫ ИКИ =: 
ИСПОЛЬЗУЕМ ДЛЯ СОЗДАНИЯ КЛАССИФРИКАТОРА?Р, В ПРИНЦИПЕ, ЛЮБОЙ МЕТОД 


[УМОЖЕТ ПОДОЙТИ, НО АЛГОРИТМ, 
{| КОТОРЫЙ СОЗДАЕТ КЛАССИФРИ- 
КАТОР, БУДЕТ ЗАВИСЕТЬ ОТ 
НЕСТАБИЛЬНОСТИ, ИНЫМИ 

СЛОВАМИ, ОН БУДЕТ 

НУВСТВИТЕЛЕН К РАЗНИЦЕ 

ДАННЫХ ДЛЯ ОБУЧЕНИЯ. 


НАПРИМЕР, ЕСЛИ У РЕШАЮЩЕГО ДЕРЕВА ПОСКОЛЬКУ КАЖДЬЙ КЛАССИРИКАТОР 

ДАННЫЕ НЕНАМНОГО ОТЛИЧАЮТСЯ, ТО ОБУЧДЕТСЯ НА ОДИНАКОВОМ 

КЛАССИОРИКАТОРЫ МОГУТ БЫТЬ РАЗНЫМИ, КОЛИЧЕСТВЕ ДАННЫХ, ВСЕ КЛАССИичРИ- 

КАТОРЫ СЧИТАЮТСЯ ОДИНАКОВО 

а” ре ЕЯ НАДЕЖНЫМИ, И В РЕЗУЛЬТАТЕ ОТВЕТ 
НОСТЬ 


для игры в гольф убрано] ДДЕТСЯ ПРОСТЫМ БОЛЬШИНСТВОМ 
[тр’9 в № ГОЛОСОВ (МАЗОРПУ УОТЕ>, 


Е вадвлитоо 


ис 
ЕСТЬ 


СУЩЕСТВУЕТ МЕТОД СЛУЧАННОГО ЛЕСА, 
КОТОРЫЙ ОТЛИНДЕТСЯ 
ПО КЛАССИФРИКАТОРАМ 
ОТ БЭГГННГА. 


НУ, ТАМ ТОЖЕ ИСПОЛЬЗУЮТСЯ ВЫБОРКИ 
ЧЕМ ОН ОТЛИЧАЕТСЯ С ВОЗВРАЩЕННЕМ НАБОРОВ ДАННЫХ 
ОТ БЭГГИНГАР ОДИНАКОВОГО РАЗМЕРА, КОТОРЫЕ ВЫДЕЛЯЮТСЯ 
(3 ДАННЫХ ДЛЯ ОБУЧЕНИЯ, 


5.2. СЛУЧАЙНЫЙ ЛЕС 


СТРОИТСЯ ДЕРЕВО РЕШЕНИЙ 
ПО КЛАССИФРИКАТОРАМ 


а ВЫБИРАЕТСЯ ЗАРАНЕЕ ОПРЕДЕЛЕННОЕ КОЛИЧЕСТВО 


ПРИЗНАКОВ ИЗ ВСЕХ, А УЖЕ В НИХ ИЩЕТСЯ ПРИЗНАК 
С МАКСИМАЛЬНО Э9РФРЕКТИВНЫМ РАЗДЕЛЕННЕМ. 


Выбирается условие 


ВИО ВЕЛЕНИЯ Баны Уровень глюкозы 
Возраст Давление ИМТ* в крови 


Извлекается случайное 
ая количество 
* 


- 
- 
“- 


= | Возраст | Давление 


ВыбБираются признаки с высоким Не используются 


Г Г информационным выигрышем Индекомааы тела: 
И КАК ОН ОПРЕДЕЛЯЕТ ЧИСЛО ПРИЗНАКОВ? 


КОЛИНЕСТВО ИТАК, КИЁХАРА-КУН, 

ПРИЗНАКОВ АЛЯ Общее Ноог (У9) | Яоог 1084 ВОПРОС! 

ВЫБОРА ИЗ ОБЩЕГО | | количество НА ЧТО НУЖНО ОБРАЩАТЬ 
ЧИСЛА ПРИЗНАКОВ признаков ВНИМАНИЕ, КОГДА МЫ 


< - ЭТО ЧАСТО 

ЛИБО КВАДРАТНЫЙ 
КОРЕНЬ ИЗ 4, 
ЛИБО 10824. 


СТРОИМ РЕШАЮЩЕЕ 
ДЕРЕВО? 


Ноог(х) - это наибольшее целое чис- 
ло, но не больше х. 


ОПЕРАЦИЯ ПРОДОЛЖАЕТСЯ 
РЕКУРСИВНО, ПОКА В КАЖДОМ 
ЛИСТЕ НЕ ОСТАНУТСЯ 
ПРЕДСТАВИТЕЛИ ОДНОГО КЛАССА, 


РАНЬШЕ МЫ ГОВОРИЛИ, ЧТО В КАЧЕСТВЕ 
МЕРЫ ПРОТИВ ПЕРЕОБУЧЕНИЯ МОЖНО 
ЛИБО ОСТАНОВИТЬ РОСТ, КОГДА 
КОЛИНЕСТВО ДАННЫХ В ЛИСТЬЯХ УПАДЕТ 
НИЖЕ ОПРЕДЕЛЕННОГО УРОВНЯ, 
ЛИБО ЖЕ ОБРЕЗАТЬ ВЕТВИ, 
КОГДА ДЕРЕВО РАЗРОСЛОСЬ. 


ИСПОЛЬЗУЯ МЕТОД СЛУЧАЙНОГО ЛЕСА, 
МОЖНО СПЕЦИАЛЬНО ПРИМЕНЯТЬ ПЕРЕОБУЧЕНИЕ, 
ОДНАКО. ЧТОБЫ ПОСТРОИТЬ МАКСИМАЛЬНО 
ОТЛИНАЮЩИЕСЯ ДЕРЕВЬЯ! 


ОД-НА-КО? 


А ТЕПЕРЬ Я ОБЪЯСНЮ, КАК 
МОЖНО СОЗДАТЬ ОТДЕЛЬНЫЕ 
ДЕРЕВЬЯ МЕТОДОМ 
СЛУЧАЙНОГО ЛЕСА. 


ДА! ЛУЧШЕ ВСЕГО, ЧТОБЫ АЛГОРИТМ, 
КОТОРЫЙ ПРИМЕНЯЛСЯ ДЛЯ КЛАССИФРИКАЦИИ, 
НЕ БЫЛ СОВСЕМ СТАБИЛЕН, 


КОГДА ОПРЕДЕЛЯЕТСЯ ПРИЗНАК 
ДЛЯ КОРНЕВОГО УЗЛА, МЫ СЛУЧАЙНЫМ 
ОБРАЗОМ ОТБИРДЕМ ЗАРАНЕЕ 
УКАЗАННОЕ ЧИСЛО ПРИЗНАКОВ. 
допустим, 
ЭТО БУДУТ ТРИ: 


ДОПУСТИМ, У НАС ЕСТЬ 
ПЯТЬ НАБОРОВ ДАННЫХ 
длЯ ОБУЧЕНИЯ АВСПЕ, 


5.2. СЛУЧАЙНЫЙ ЛЕС 


ПОТОМ ДЛЯ ОТДЕЛЬНЫХ НАБОРОВ 
ДАННЫХ СЛУЧАЙНЫМ ОБРАЗОМ 
СНАЧАЛА ПОДСЧИТЫВАЕТСЯ ОПРЕДЕЛЯЕТСЯ НАБОР ПРИЗНАКОВ, 
КЛАССНАРИЦИРУЮЩАЯ 13 НИХ ВЫБИРАЕТСЯ ПРИЗНАК 
СПОСОБНОСТЬ КАЖДОГО С САМОЙ ВЫСОКОЙ СПОСОБНОСТЬЮ 
ПРИЗНАКА, И ЗАТЕМ, ВЫБИРАЕТСЯ КЛАССИУРИКАЦИИ, И ДЕРЕВО РАСТЕТ, 
ПРИЗНАК С САМОЙ ВЫСОКОЙ, 


Признак АВСОЕ 
$ Случайный выбор 
АВЕ 


Случайный ДВЕ о ВСОЕ Признак ВСОЕ 


выбор | 
^_ " ‚= ь 


| за | , | 
ТАК ЦЗ ПОХОЖИХ ДАННЫХ 


МОЖНО ПОСТРОИТЬ ОТЛИНАЮЩИЕСЯ 
РЕШАЮЩИЕ ДЕРЕВЬЯ. 


КЛАССИФРИКАТОР, КОТОРЫЙ 
СПЕЦИАЛИЗИРУЕТСЯ 
НА УМЕНЬШЕНИИ 
КОЛИНЕСТВА ОШИБОК? 


В БЭГГИНГЕ М МЕТОДЕ СЛУЧАЙНОГО 
ЛЕСА ИЗМЕНЯЮТСЯ ИСПОЛЬЗУЕМЫЕ \. 
НАБОРЫ ДАННЫХ, ИЗМЕНЯЮТСЯ УСЛОВИЯ 
ВЫБОРА КЛАССИ<РИКАТОРОВ, И ПОЭТОМУ | 
МОЖНО СТРОИТЬ ОТЛИНАЮЩИЕСЯ 
КЛАССИФРИКАТОРЫ, 

КРОМЕ ТОГО, В МЕТОДЕ БУСТИНГА 
НАБОР КЛАССИФРИКАТОРОВ, 
КОТОРЫЕ ВЕДУТ СЕБЯ 
ПО-РАЗНОМУ, СОЗДДЕТСЯ ПУТЕМ 
ПОСЛЕДОВАТЕЛЬНОГО 
ДОБАВЛЕНИЯ КЛАССИФРИКАТОРОВ, 

КОТОРЫЕ СПЕЦИАЛИЗИРУЮТСЯ 
НА УМЕНЬШЕНИИ ОШИБОК. 


ДЛЯ ЭТОГО НУЖНО 
ОПРЕДЕЛИТЬ ВЕС 
КАЖДОГО ЭЛЕМЕНТА 
ДАННЫХ, 
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Классификатор 1 
Классификатор 2 


езультат1 Результат 2 


Взвешенное голосование | 


Результат 


ЗАТЕМ ДЛЯ НАБОРА ДАННЫХ, В КОТОРОМ 


БЫЛИ ИЗМЕНЕНЫ ВЕСА, ПРОВОДИТСЯ 
ОБУЧЕНИЕ ПРИ ПОМОЩИ СЛЕДУЮЩЕГО 
КЛАССИФРИКАТОРА. 


Остялись 
ошибки... 


УНЕБНЫЙ АЛГОРИТМ 
КЛАССИФРИКАТОРА, КОТОРЫЙ 
ИСПОЛЬЗУЕТСЯ В БУСТИНГЕ, ДОЛЖЕН 
В ОСНОВНОМ ПРИМЕНЯТЬ ВЕСА 
ДАННЫХ В КАЧЕСТВЕ КРИТЕРИЯ 
дла создАНИЯ НОВОГО 
КЛАССИФРИКАТОРА. 


ТО ЕСТЬ ЭТОТ МЕТОД 
НЕЛЬЗЯ ИСПОЛЬЗОВАТЬ, 
ЕСЛИ НЕ ДУМАТЬ О ВЕСАХ 
С САМОГО НАНАЛА, 


Результат т 


ПРЕЖДЕ ВСЕГО СОЗДАЕТСЯ 
КЛАССИФРИКАТОР ДАННЫХ ДЛЯ 
ОБУЧЕНИЯ С ОДИНАКОВЫМИ ВЕСАМИ. 
УВЕЛИЧИВДЕМ ВЕС ДАННЫХ, КОТОРЫЕ 
ОШИБОЧНО КЛАССИФРИЦИРОВАНЫ 
С ПОМОЩЬЮ ЭТОГО 
КЛАССИФРИКАТОРА, 


Классификатор 


А КАК НАСТРАИВАЕТСЯ 
ВЕС ДАННЫХ? 


2 
ТАК, НТОБЫ СУММА ВЕСОВ 
ПРАВИЛЬНО КЛАССИРИЦИРОВАННЫХ 
ДАННЫХ И СУММА ВЕСОВ НЕПРАВИЛЬНО 
КЛАССИСРИЦИРОВАННЫХ ДАННЫХ 
СТАНОВИЛИСЬ ОДИНАКОВЫМИ, 


И ТАК ПОЭТАПНО СОЗДАЮТСЯ НОВЫЕ 
КЛАССИФРИКАТОРЫ, НОВЫЙ 
КЛАССИОРИКАТОР, В ОТЛИЧИЕ ОТ РАНЕЕ 
СОЗДАННОГО, КЛАССИРИЦИРУЮЩЕГО 
ОШИБОЧНЫЕ ДАННЫЕ, ВОСПОЛНЯЕТ 

ЕГО СЛАБЫЕ СТОРОНЫ, 


ЭТО МЕТОД АРАВООЗТ. 


НЕТ, МОЖНО СПРАВИТЬСЯ, 
СОЗДАВАЯ НАБОРЫ ДАННЫХ ПУТЕМ 
ВЫБОРКИ С ВОЗВРАЩЕНИЕМ, 
ЗАНОВО РАСПРЕДЕЛЯЯ ВЕСА, 


УДОБНО! А РЕШЕНИЕ 
ПРИНИМАЕТСЯ БОЛЬШИНСТВОМ 
ГОЛОСОВ, КАК В БЭГГИНГЕ? 


5.3. БУСТИНГ 


В СЛУЧАЕ МЕТОДА АБАВООЗТ 
КЛАССИФРИКАТОР СОЗДДЕТСЯ 
НА ОСНОВАНИИ ОШИБОК 
НА ПРЕДЫДУЩЕМ ЭТАПЕ, ТАК? 


НАЕЖНОСТЬ: 


— 


КАК ОПРЕДЕЛЯЕТСЯ 
РЕЗУЛЬТАТ КЛАССИФРИКАЦИИ? 


ВЫЧИСЛЯЕТСЯ ВЕС НА ОСНОВАНИИ 
ВЕЛИЧИНЫ <РУНКЦИИ ОШИБОК ДЛЯ КАЖДОГО 
КЛАССИФРИКАТОРА, ПРОВОДИТСЯ ГОЛОСОВАНИЕ 
ВЕСОВ, И ПОЛУЧАЕТСЯ РЕЗУЛЬТАТ. 


ЕСТЬ СПОСОБ, ПРИ КОТОРОМ В КАЧЕСТВЕ ЕЩЕ 
ОДНОГО УРАВНЕНИЯ МОЖНО ИСПОЛЬЗОВАТЬ 
<РУНКЦИЮ ПОТЕРЬ. СОСТАВНОЙ КЛАССИСРИКАТОР, 
КОТОРЫЙ ЯВЛЯЕТСЯ РЕЗУЛЬТАТОМ БУСТННГА, 
МОЖЕТ ОПРЕДЕЛИТЬ <РУНКЦИЮ ПОТЕРЬ. 


Ввод 


Находим такие 
аз ий», чтобы 
минимизировать 


у Находим такие 
ази Из, чтобы 
минимизировать 


— м] 

= | потери, $ | потери, Е 

© | рассчитанные © | рассчитанные о 

© | по формуле © | по формуле | 

8 В = +921. 8 | В=№ аз. № 

> 5 5 Ги } ы 

[8 [8 о 

© © з 

с с с 

(>) е - в 
ы т [2 Пт 


и 
@> Ят 
ль 1 Результат 2 Результат т 


Взвешенное голосование 


Результат 
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ИНЫМИ СЛОВАМИ, ЕСЛИ В ИСХОДНЫХ 
ДАННЫХ ДЛЯ ОБУЧЕНИЯ МНОГО 
ОШИБОК, ТО НАДЕЖНОСТЬ 
КЛАССИСРИКАТОРА, СОЗДАННОГО 

НА ОСНОВЕ ЭТИХ ДАННЫХ, ДЛЯ 
НЕИЗВЕСТНЫХ ДАННЫХ НА ВХОДЕ 
БУДЕТ УВЕЛИНИВАТЬСЯ, 


ПОСКОЛЬКУ В АБАВООЗТ 
К КЛАССИФРИКАТОРАМ 
НА ПРЕДЫДУЩИХ ЭТАПАХ ОДИН 
ЗА ДРУГИМ ДОБАВЛАЯЮТСЯ 
КЛАССИФРИКАТОРЫ, КОТОРЫЕ 
ПРАВИЛЬНО КЛАССИРИЦИРОВАЛИ 
ОШИБОЧНЫЕ ДАННЫЕ, ЕГО 
ЭРРЕКТИВНОСТЬ ПОВЫШАЕТСЯ, 


МОЖНО ПРЕДСТАВИТЬ УРАВНЕНЦЕ, 
ПРИ КОТОРОМ ПОСЛЕДУЮЩИЕ 
КЛАССИФРИКАТОРЫ БУДУТ ВЫБУРАТЬСЯ 
ТАК, ЧТОБЫ МАКСИМАЛЬНО УМЕНЬШИТЬ 

<РУНКЦИЮ ПОТЕРИ, 


БУСТИНГ, ОСНОВАННЫЙ 
НА ЭТОЙ ИДЕЕ, НАЗЫВАЕТСЯ 
ГРАДНЕНТНЫМ БУСТИНГОМ. 


А ТЕПЕРЬ НЕМНОГО 
ПОКОДИРУЕМ! 


Возьмем данные ФаБеез.агЁ из инструментов для машинного обуче- 
ния МеКа. Они близки к данным, необходимым для сайта с тестом 
определения вероятности диабета. 


Хотя в зс Ц ИНеаги есть такой же набор данных, но он нужен для задач 
регрессии, и объяснить результат будет трудно, поэтому для задач 
классификации мы используем набор 41аБе{ез.агЁ. 


ЧФаБе!ез.агЙ содержит в себе результаты осмотров и диагнозы. При- 
знаки - возраст, давление, ИМТ ит. п. 


Для начала надо скачать Ф4аБеез.агЁ. Можно скачать несколько набо- 
ров данных с Брз://уу\г\.с5 маЦкаго.ас.пи/таИууеКа/Чаазе{.Б] и най- 
ти там нужный файл. 


Файл формата агЁ будет прочитан как модуль агЁ зору. Поскольку 
признаковые описания и метки правильных ответов находятся в од- 
ной строке, каждый можно сохранить в отдельный массив питру. 


5.3. БУСТИНГ 


В зсиИНеагп ансамблевые методы используютсяе так же, как и обуче- 
ние и оценка данных с классификатором. Используя перекрестную 
проверку по 10 % данных, определим среднюю точность и дисперсию. 


Используя параметры по умолчанию, можно получить хорошие ре- 
зультаты при помощи градиентного бустинга. 
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НУ, НА СЕГОДНЯ ВСЕ _ 
ПРО АНСАМЕЛЕВЫЕ МЕТОДЫ. || УДАЧИ ЛУЧШЕ БЫ Я В ТОТ РАЗ 
|| С ОТКРЫТИЕМ САЙТА! ВСЕ ДОСЛУШАА.. 
НАВЕРНОЕ, НАДО 


БЕЖАТЬ, ПОТОМУ ЧТО 
БОЮСЬ СНОВА 


УСЛЬШАТЬ, ЧТО Я ЕЦ 
КАК “БРАТИК”. 


Я ОЧЕНЬ 
БЛАГОДАРЕН 
ВАМ, СЭМПАИ! 


НЕТ-НЕТ, 


ЭТО Я САМА МЕНА ВЗЯЛИ НА РАБОТУ! 
ВЫЗВАЛДСЬ ТЕБЯ 


УЧИТЬ! 


КСТАТИ, МНЕ 
НЕДАВНО ПРИШЛО 
ПИСЬМО... 


ПИСЬМО?., 


НУ ЭТО ЖЕ ПРЕКРАСНО! 
ПОЗДРАВЛЯЮ! 


И ПОСЛЕ ВЫПУСКА 
Я ПЕРЕЕДУ В ТОКЦО. 


ДА... 
НО Я ДУМАЛА, ЧТО НЕ ВОЗЬМУТ. 


КОНЕЧНО, БУДЕТ ТРУДНО 
ВСТРЕЧАТЬСЯ, И Я НЕ СМОГУ 
ТЕБЯ БОЛЬШЕ УЧИТЬ. 


Я ЖАЛЕЮ ОБ ЭТОМ, 
ПОТОМУ ЧТО ТЫ ХОРОШИЙ 
УЧЕНИК. 


ТО МЛАДШИЙ 
ТОВАРИЩ, 


ТО БРАТИК, 


ЭТО Я ДОЛЖЕН, 
ПЛАТА ЗА ОБУЧЕНИЕ! 


= 
НО ТЫ ЖЕ УЖЕ ЗАПЛАТИЛ 


ДО ЭТОГО, НЕ ХОНУ, 
ЧТОБЫ ТЫ ПОСТОЯННО 
МЕНЯ УГОЩАЛ! 


ПОЗВОЛЬ МНЕ ЗАПЛАТИТЬ, 
КАК МУЖНИНЕ! 


ХОТЬ Я И УГОЩАЮ, 


НО НЕ ХОНУ 
ВЫГЛЯДЕТЬ ЛУЧШЕ, 
ЧЕМ Я ЕСТЬ. 


КАЖЕТСЯ, 
БУДТО БЫ ТЕБЕ 
НЕ ПОНРАВИЛОСЬ 


Се: 


Е и 
ЕЕ 
= Е 
= ЕЕ 
Е ЕР 


К 
5.3. БУСТИНГ 


В кабинете у Саяка (6) 


Математическое повторение (5) 


Что было непонятно? 


Конечно, могут поссориться. Но чтобы они не поссорились, мы 
используем голосование по методу большинства, и оно может 
численно подтвердить наилучший ответ. 


Прежде всего пусть для одинаковых данных для обучения мы 
будем использовать Г, разных классификаторов. 


Ну, можно взять и неумных людей. Хоть это немногим лучше, 
чем случайные ответы, но математическая формулировка не 
изменится. 
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Предположим, что процент ошибок классификатора е один 
и тот же, и ошибки независимы. 


Под независимостью ошибок имеется в виду то, что вероят- 
ность ошибки классификатора для каждого элемента данных 
независима. Иными словами, можно предположить, что нет 
данных, для которых вместе ошибется множество классифика- 
торов. 


Основываясь на этой гипотезе, рассмотрим вероятность того, 
что из Г классификаторов т классификаторов ошиблись. Пусть 
= 


А если ошиблись два? 


В КАБИНЕТЕ У САЯКА (6). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (5) 


Тогда число способов выбрать 2 из Г будет ГС,, и, значит, у нас 
будет ГСое>(1 - о 


Так. Вероятность, что т из Г классификаторов, вероятность 
ошибки каждого из которых е, находится при помощи биноми- 
нального распределения В(т; е, Г). 


Ве = Се" -е“”. 


Предположим, что количество классификаторов Г, = 11, коэф- 
фициент ошибки каждого е = 0.2, тогда биноминальное распре- 
деление В(ии; 0.2, 11) будет представлено на графике ниже. 


В(т; 0.2, 11) оз 


0.25 


0.2 


0.15 


0.1 


Вероятность того, 
что Более половины 


005 ошиблись 


Если результат классификации определяется большинством 
голосов, то вероятность полностью неправильного решения 
будет равняться сумме вероятностей ошибок шести классифи- 
каторов и больше. При подсчете получится 1,2 %. 
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Если вероятность ошибки каждого классификатора по отдель- 
ности 20 %, но мы используем все 11 классификаторов, то веро- 
ятность ошибки составит всего 1,2 %. 


Однако и у этого метода есть недостатки. Данные, которые 
трудно классифицировать даже людям, могут вызвать ошибки 
у многих классификаторов, и поэтому на самом деле эффектив- 
ность не так высока. 


Но чтобы по возможности разрешить эту проблему, можно де- 
лать классификаторы с разным поведением, для чего и нужны 
ансамблевые методы. Понятно в целом? 


В КАБИНЕТЕ У САЯКА (6). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (5) 
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ГЛАВА © 


ОБУНЕНИЕ 
БЕЗ УЧИТЕЛЯ 


Отдел здравоохранения _ 
и благосостояния 


ЧТО СЛУЧИЛОСЬ? 


МОЖНО С ВАМИ НЕМНОГО 
ПОГОВОРИТЬ? 


У СДИТА, КОТОРЫЙ 
ОПРЕДЕЛЯЕТ ВЕРОЯТНОСТЬ 
ЗАБОЛЕВАНИЯ ДИАБЕТОМ, 
ХОРОШИЕ ОТЗЫВЫ. 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


КИЁХАРА-КУН, МОЖНО 


НА МИНУТОЧКУ? 


ХОНУ ВАС КОЕ О ЧЕМ ПОПРОСИТЬ, 
КНЕХАРА-КУН. ВЫ ЖЕ ХОРОШО 
РАЗБИРДЕТЕСЬ В МАШИННОМ 
ОБУЧЕНИИ? 


НЕ СТОНТ. В ЭТОМ ГОДУ, 
КАК ВАМ ИЗВЕСТНО, 
Я ВЫХОЖУ НА ПЕНСИЮ. 


И ЕСТЬ ОДНО ДЕЛО, 
СЛИШКОМ СЛОЖНОЕ 
ДЛЯ МОЕГО ПРЕЕМНИКА. 


ЧТО ЗА ДЕЛО? 


КАЖДЫЙ МЕСЯЦ НАШ В ЭТОЙ РАССЫЛКЕ 
ДЕПАРТАМЕНТ УСТРАИВАЕТ Я СОВЕТОВАЛ ИМ 
РАССЫЛКУ ДЛЯ ОДИНОКиХ ОТДЕЛЬНЫЕ МЕРОПРНИЯТНЯ, 

ПОЖИЛЫХ ЛЮДЕН. ОСНОВЫВАЯСЬ 
НА ИХ ПРЕДПОЧТЕНИЯХ. 


$ весенняя расиродажя а 
НИ КО а ХОТЕЛОСЬ БЫ, ЧТОБЫ 
РАССЫЛКА ПРОДОЛЖАЛАСЬ 
И ПОСЛЕ ТОГО, КАК 
Я УЙДУ НА ПЕНСИЮ. 


Е ВЫ ЖЕ НЕ СМОЖЕТЕ 
ДО ЭТОГО Я ОТПРАВЛЯЛ ВСЕ | ВСЕ ЭТО ПЕРЕДАТЬ ПРОСТО ТАК 
САМОСТОЯТЕЛЬНО, НО ХОТЕЛОСЬ БЫ |: : СВОЕМУ ПРЕЕМНИКУ? 
КАК-ТО СИСТЕМАТИЗИРОВАТЬ 
ЭТО ДЕЛО... 


ДА, И Я ПОДУМАЛ, 
МОЖЕТ ВЫ, КИЁХАРА-КУН, 


СМОЖЕТЕ ЧТО-НИБУДЬ СДЕЛАТЬ. 


Я ПОПРОБУЮ, НО МНЕ НУЖНО 
ИЗУЧИТЬ ВОПРОС. 


КОНЕЧНО! 
ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕТ, СПАСИБО, КНЁХАРА-КУН! 
ПОЭТОМУ ЭТО ОБУЧЕНИЕ 
БЕЗ УЧИТЕЛЯ, 


ЧТО-ТО ТЫ НЕДАВНО СТАЛ 
УЧИТЬСЯ ВО ВРЕМЯ ОБЕДА... 


ДИРЕКТОР СКАЗАЛ, НТО ОТЗЫВЫ НА САЙТ 
С ПРОГНОЗАМИ ДЧАБЕТА ХОРОШЦЕ, И ПОПРОСИЛ 


НУ... МОЖЕТ, ТЫ К СЭМПАЮ РАССКАЖИ МНЕ, МОЛ, 
СВОЕМУ ОБРАТИШЬСЯ? КАК НАДО СДЕЛАТЬ ТО И ЭТО. 


КСТАТИ, ЧТО-ТО ПИСЬМА ОТ НЕЕ 
КАКИЕ-ТО ЗРОРМАЛЬНЫЕ! 
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НУ, Я МОГУ СПРОСИТЬ 
У ТОВАРИЩА ПО НГРЕ, КОТОРЫЙ 
ПОМОГ МНЕ С ЖУРНАЛОМ Неделю спустя 
ПРО МАШИННОЕ ОБУЧЕНИЕ. 


ДАР СПАСИБО! 


ЧТОБЫ ПРОДНАЛИЗИРОВАТЬ МОДЕЛИ 
ПОВЕДЕНИЯ ПОЖИЛЫХ, НУЖНА 


НО Я СЛИШКОМ 


МНОГОГО НЕ ЗНАЮ... 
КЛАСТЕРИЗАЦИЯ, А ЧТОБЫ ВЫБРАТЬ ы 


НУЖНУЮ ИНФРОРМАЦИЮ - 
РАЗЛОЖЕНИЕ МАТРИЦЫ, 


О, ЭТО ОТ 
САЯКА-СЭМПАИ! 


”” ДОБРО" 
ПОЖАЛОВАТЬ 


СЭМПАИ! 


ИЗВИНИТЕ, ЧТО ОПОЗДАЛ! 


НИЧЕГО 
СТРАШНОГО! 


ТЫ ЭКСТРАСЕНС, 
в ЧТО ЛИ? 
КНЕХАРА-КУН, 
У ТЕБЯ ОПЯТЬ ПРОБЛЕМЫ 


С МАШИННЫМ 
ОБУНЕННЕМ? 


РАССКАЖИТЕ МНЕ 
ПРО ОБУЧЕНИЕ 
БЕЗ УЧИТЕЛЯ. 
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Я ПОПЫТАЛСЯ САМ НАИТИ 
ИНЗРОРМАЦИЮ ПРО КЛАСТЕРИЗАЦИЮ 
И РАЗЛОЖЕНИЕ МАТРИЦЫ, 


СЭМПАИ, 
ВЫ МНЕ РАССКАЖЕТЕ 


НАПРАВЛЕНИЕ ВЕРНОЕ! [::11 \ ПРО ОБУЧЕНИЕ БЕЗ 
УЧИТЕЛЯ, ПРАВДА? 


ХОРОШО! 


Я ЖЕ РАДА ВИДЕТЬ, 
ЧТО ТЫ ЧЕМУ-ТО УЧИШЬСЯ! 


ЭТО ОЧЕНЬ ШИРОКО, 
ОДИН ИЗ МЕТОДОВ ОБУЧЕНИЯ ПОПРОБУШ ОПРЕДЕЛИТЬ 


БЕЗ УЧИТЕЛЯ - КЛАСТЕРНЫЙ АНАЛИЗ - КЛАСТЕРИЗАЦИЮ, ИСПОЛЬЗУЯ 
ИСПОЛЬЗУЕТСЯ ДЛЯ РАЗДЕЛЕНИЯ СЛОВО “РАССТОЯНИЕ”. 
ДАННЫХ ПО ГРУППАМ. / 


И МОЖНО СКАЗАТЬ, 
ДАННЫЕ, КОТОРЫЕ ОБЪЕДИНЯЮТСЯ В ОДНУ ГРУППУ, р ЧТО ИХ ЭТО 
ДОЛЖНЫ НАХОДИТЬСЯ НА БЛИЗКОМ РАССТОЯНИИ ОБЪЕДИНЯЕТ. 
ДРУГ ОТ ДРУГА. 


ий р 
А 7 
№ 

© 


Расстояния малы, 
можно объединить 


Расстояниймежду 
элементами велики, 
нельзя объединить 


НЕОБХОДИМО ЕЩЕ, ЧТОБЫ ДАННЫЕ, 
КОТОРЫЕ НАХОДЯТСЯ В РАЗНЫХ 
ГРУППАХ, БЫЛИ НА ДАЛЕКОМ 
РАССТОЯНИИ ДРУГ ОТ ДРУГА. 


© 
ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ иене 


ооооое 


„КОГДА НОВЫЕ КЛАСТЕРЫ 
КЛАСТЕРИЗАЦИЯ ДЕЛИТСЯ НА НЧЕРАРХИНЧЕСКУЮ, 
СОЗДАЮТСЯ ПУТЕМ ДЕЛЕНИЯ 
КОГДА НОВЫЕ КЛАСТЕРЫ СОЗДАЮТСЯ ПУТЕМ 
БОЛЕЕ КРУПНЫХ КЛАСТЕРОВ 
ОБЪЕДИНЕНИЯ БОЛЕЕ МЕЛКИХ КЛАСТЕРОВ НА БОЛЕЕ МЕЛКИЕ и ДЕРЕВО 
И ДЕРЕВО СОЗДДЕТСЯ ОТ ЛИСТЬЕВ К СТВОЛУ; 


И НА РАЗДЕЛЯЮЩУЮ САИВИЗИВНУЮ).., и и 


Разделяющая кластеризация 
Иерархическая кластеризация 


н №. Воттак? (С 


| № 
|] №: 
Похоже? 


=, ^ = 
@ 


ооо ооо ооо ооо оо ооо оо ооо ооо ооо ооо ооо ео 


6.1.1. Иерархическая кластеризация ; 
НЕРАРХИНЧЕСКАЯ КЛАСТЕРИЗАЦИЯ - | 
ЭТО ПРОЦЕСС, ПРИ КОТОРОМ СОЗДАЮТСЯ | 
НОВЫЕ КЛАСТЕРЫ ПУТЕМ ОБЪЕДИНЕНИЯ |: 
БОЛЕЕ МЕЛКИХ КЛАСТЕРОВ. КЛАСТЕРЫ 
ПОСТЕПЕННО РАСТУТ. 


АЛГОРИТМ ВЫГЛЯДИТ ТДК; 


Ф Данные объединяются @-© Кластеры, которые находятся рядом, объединяются 
в кластеры - так получаются новые кластеры 


© Вконце концов данные 
объединяются в один кластер 


ПОНЯТНО, КОГДА ДАННЫЕ 
НАХОДЯТСЯ РЯДОМ, НО КАК 
ВЫЧИСЛИТЬ РАССТОЯНИЕ МЕЖДУ 
ДАННЫМИ И КЛАСТЕРОМ, А ТАКЖЕ |^\\ 

МЕЖДУ ДВУМЯ КЛАСТЕРАМИ? Е: \. 


ЕСЛИ ПРЕДСТАВИТЬ, ЧТО В КЛАСТЕР ВХОДИТ 
ТОЛЬКО ОДИН ЭЛЕМЕНТ ДАННЫХ, 
ТО РАССТОЯНИЕ МЕЖДУ КЛАСТЕРАМИ МОЖНО 
ОПРЕДЕЛИТЬ ПО СТЕПЕНИ МХ СХОДСТВА. 


Метод одиночной Метод полной связи Центроидный метод |Метод Уорда 
связи 


Сходство определя- |Сходство определяется | Сходство определяется | После объединения 


ется величиной величиной расстояния | расстоянием между кластеров вычисляется 
расстояния между между самыми дальни- | центроидами кластеров | квадрат среднего рас- 
самыми близкими ми элементами стояния между данными 
элементами и центром кластера, из 


него вычитается эта 
величина до объединения 


Есть тенденция Есть тенденция Тенденция к удлинению | Часто получаются 

к удлинению класте- |к избеганию удлинения | кластеров находится сравнительно хорошие 
ров в одном направ- |кластеров в одном между одиночной кластеры 

лении направлении и полной связью 


КАКИМ МЕТОДОМ ЛУЧШЕ 
ВСЕГО РАЗДЕЛИТЬ ДАННЫЕ 
НА ТРИ КЛАСТЕРА? 


Объединение 
кластеров 


| , | Один кластер 
ЕСЛИ ЗАПИСАТЬ ОПЕРАЦИЮ 
ОБЪЕДИНЕНИЯ КЛАСТЕРОВ В ВИДЕ 
ДЕРЕВА, КАК ПОКАЗАНО НА РИСУНКЕ, 
ТО СНАЧАЛА КОЛИЧЕСТВО КЛАСТЕРОВ 
БУДЕТ РАВНЯТЬСЯ КОЛИЧЕСТВУ 
ДАННЫХ №, А ДАЛЕЕ УМЕНЬШАТЬСЯ 
ПО ОДНОМУ ЗА КАЖДУЮ ОПЕРАЦИЮ, 
КЛАСТЕРЫ ПОСТЕПЕННО 
ОБЪЕДИНЯЮТСЯ В ОДИН. 

В ПРИНЦИПЕ, МОЖНО ПОЛУЧИТЬ 
ЛЮБОЕ ИХ КОЛИЧЕСТВО, ЕСЛИ НАДО 
ПОЛУЧИТЬ ТРИ КЛАСТЕРА, ТО ЛУЧШЕ 
ОСТАНОВИТЬСЯ ЗДЕСЬ. 


Надо остановиться здесь 
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6.1.2. Разделяющая кластеризация 


А что за метод - разделяющая кластеризация? 


А чем он отличается от иерархической кластеризации? 


Так. Получается, что разделяющая кластеризация всегда дает лучшие 
результаты, чем иерархическая:.. 


Например, какие вычисления надо провести, если надо перебрать 
и найти лучший результат функции оценки при разделении № элемен- 
тов данных на два кластера? 


6.1. КЛАСТЕРИЗАЦИЯ 


В таком случае в качестве обычного метода используют поиск опти- 
мального разделения. Основной метод разделяющей кластеризации - 
метод К-средних, можешь рассказать о нем? 


Повторяем пункты @ и ® 
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А какая у этого метода функция оценки? 


А почему при этом величина функции оценки уменьшается? 


Да. Однако при использовании этого метода мы находим локальное 
оптимальное решение. Я специально говорю «локальное», потому что 
этот метод не позволяет сказать, является ли оно общим для целого. 


Да. Однако если провести несколько итераций с разными входными 
данными, то кластеризация методом К-средних даст хороший ре- 
зультат. 


6.1. КЛАСТЕРИЗАЦИЯ 


КСТАТИ, СУЩЕСТВУЕТ ТАК НАЗЫВДЕМЫЬЙ 
ЕМ-АЛГОРИТМ, ОСНОВАННЫЙ 
НА ЗРУНКЦИМ РАСПРЕДЕЛЕНИЯ 
ВЕРОЯТНОСТИ, КОТОРЫЙ ПОМОГДЕТ 
НЕ ТОЛЬКО РАЗДЕЛИТЬ ДАННЫЕ 
ПО КЛАСТЕРАМ, НО Ц ГЕНЕРИРОВАТЬ 
НОВЫЕ ДАННЫЕ В КАЖДОМ КЛАССЕ. 


ПОРЯДОК ТДКОШМ ЖЕ, КДК И В МЕТОДЕ 
К-СРЕДНИХ: СНАЧАЛА МЫ СТРОЦМ 
СРЕДНИЕ ВЕКТОРЫ и НАХОДИМ МАТРИЦУ 
РАСПРЕДЕЛЕНИЯ. ЭТО ЭКВИВАЛЕНТНО 
ПОМЕЩЕНИЮ НОРМАЛЬНОГО 
РАСПРЕДЕЛЕНИЯ В СООТВЕТСТВУЮЩЕМ 
МЕСТЕ В ПРОСТРАНСТВЕ ПРИЗНАКОВ, 


При перевычислении 


<РУНКЦИЯ РАСПРЕДЕЛЕНИЯ 
ВЕРОЯТНОСТИ? СЛОЖНОВАТО, 


В ОБЩЕМ, 
ЕЕ МОЖЕТ ЛЕГКО ОБЪЯСНИТЬ 
ГИПОТЕЗА РАСПРЕДЕЛЕНИЯ 
ПРАВИЛЬНЫХ ОТВЕТОВ. 


‚ Распределение Ф, 


о 
Распределение Ф, 


распределения 
добавляется вес 0,2 0.2$1 + 0.8$> 


ЗАТЕМ С ПОМОЩЬЮ МЕТОДА 
К-СРЕДНИХ МЫ ОПРЕДЕЛАЕМ, 

К КДКОМУ КЛАСТЕРУ 
ПРИНАДЛЕЖИТ КАЖДЫЙ 
ЭЛЕМЕНТ ЛАННЫХ. с помощью 


ЕМ-АЛГОРИТМА МОЖНО 
НДАИТН РАСПРЕДЕЛЕНИЕ: 
НАПРИМЕР, В ОДНОМ 
КЛАСТЕРЕ 90 %, 

А В ДРУГОМ 80 $%. 


ЕГО МОЖНО РАССЧИТАТЬ 
НА ОСНОВАНИИ ПОДХОДЯЩЕГО 


ЭТО КАК-ТО 
СЛУЧАЙНО! 


НО СНАЧАЛА, ИСПОЛЬЗУЯ МЕТОД 


К-СРЕДНИХ, МЫ СЛУЧАЙНЫМ ОБРАЗОМ 


И КАК УДАЛОСЬ НАЙТИ 
ЭТО РАСПРЕДЕЛЕНИЕ? 


ОПРЕДЕЛЯЛИ СРЕДНИЙ ВЕКТОР 
И НА ОСНОВАНИИ ЕГО СТРОМЛИ 
КЛАСТЕРЫ, ПРАВДА? 


ЗАТЕМ, КДК И В МЕТОДЕ К-СРЕДНИХ, ВЫЧИСЛЯЮТСЯ 
ПАРАМЕТРЫ КЛДСТЕРОВ, ТО ЕСТЬ СРЕДНИЙ ВЕКТОР 


И КОВАРНАЦИОННАЯ МАТРИЦА, 


ТОГАД КОЛИЧЕСТВО ЭЛЕМЕНТОВ ДАННЫХ 
В КЛАСТЕРЕ БУДЕТ ВЫЧИСЛЯТЬСЯ НА ОСНОВАНИИ 
ТОГО, ЧТО БЫЛО НА ПРЕДЫДУЩЕМ ЭТАПЕ? 


РАЗНИЦА ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ В МЕТОДЕ К-СРЕДНИХ 


И ЕМ-АЛГОРИТМЕ ВЫГЛЯДИТ ВОТ ТАК: 


Случайным образом 
определяем К средних 
векторов 


Метод 
К-средних 


Формируем кластеры 

в зависимости от расстояния 
объекта данных до среднего 
вектора 


Перевычисляем средние 
векторы каждого нового 
кластера 


Случайным образом 
определяем 

К нормальных 
распределений 


ЕМ-алгоритм 


Рассчитываем вероятность, 

с которой каждый объект 
принадлежит к каждому 
кластеру, а затем определяем, 
где она выше 


Пересчитываем параметры 
каждого распределения, 
рассматривая вероятность 
принадлежности каждого 
элемента (к кластеру) как вес 


ТАКИМ ОБРАЗОМ МОЖНО СОЗДАТЬ КЛАСТЕР, 
КУДА ВХОДЯТ ЛЮДИ С ПОХОЖИМИ МОДЕЛЯМИ ПОВЕДЕННЯ, 
Ц СОВЕТОВАТЬ ИМ ПОДХОДЯЩИЕ ДЛЯ НИХ СОБЫТНЯ, 


ПОГОВОРИМ 
О РАЗЛОЖЕНИИ 
МАТРИЦЫ. 


ПОЧЕМУ 
ТЫ ХОТЕЛ 
ИСПОЛЬЗОВАТЬ ЭТОТ 
МЕТОД ДЛЯ РЕКОМЕН- 
ДАЦИИ СОБЫТИЙ 
ПОЖИЛЫМ ЛЮДЯМ? 


6.2. РАЗЛОЖЕНИЕ МАТРИЦЫ 


Я ОБНАРУЖИЛ, ЧТО ЭТО 
НАСТО ИСПОЛЬЗУЕТСЯ 
В РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМАХ. 


НА ОСНОВАНИИ ИСТОРИИ ПОКУПОК 
ПОЛЬЗОВАТЕЛЯМ РЕКОМЕНДУЮТ 
ТОВАРЫ, КОТОРЫМИ ОНИ МОГУТ 

ЗАННТЕРЕСОВАТЬСЯ., 


Что из этого? 


ДА, НО КАК ПРОВОДИТСЯ 


РАЗЛОЖЕНИЕ МАТРИЦЫ, 
События ТЫ ПОНЯЛР 


ДАННЫЕ О ТОМ, ЧТО 
М№ пПолЬзЗовВАТЕЛЕЙ КУПИЛИ 
ПРОДУКТ МАРКИ М, можно 
ЗАПИСАТЬ В ВИДЕ МАТРИЦЫ 
МХМ, 


ОДНАКО ЕСЛИ В ТАКОЙ 
МАТРИЦЕ и Ми М - 
БОЛЬШИЕ ЧИСЛА, 
ТО МАТРИЦА 
ПОЛУЧАЕТСЯ НЕМНОГО 
БЕССМЫСЛЕННОЙ, 


ДА, И БОЛЕЕ ТОГО, 
ТОВАРЫ, КОТОРЫЕ 
ДУМАЮ, ЧТО ВМЕСТО ПРОДУКТОВ Е ПОКУПАЕТ ПОЛЬЗОВАТЕЛЬ, 
МОЖНО ПОДСТАВИТЬ СОБЬЫТНЯ, СОСТАВЛЯЮТ ЛИШЬ 
КОТОРЫЕ ПРОНСХОДЯТ В ГОРОДЕ, ь || НЕБОЛЬШУЮ НАСТЬ ВСЕХ 
Е ТОВАРОВ НД САЙТЕ. 


ЕСТЬ ГИПОТЕЗА О СУЩЕСТВОВАНИИ НЕСКОЛЬКИХ 
ЛАТЕНТНЫХ <РАКТОРОВ, НА ОСНОВАНИИ КОТОРЫХ 
ПОЛЬЗОВАТЕЛИ ПОКУПАЮТ ВЕЩИ. КОГАА ЖЕНЩИНА", 
ПОЛЬЗОВАТЕЛЕМ ГРУППИРУЮТ НА ОСНОВАНИИ ЭТИХ “МЕСТНАЯ”, 
<РАКТОРОВ, ТО В <РОКУСЕ ОКАЗЫВАЮТСЯ ПРИЗНАКИ ^——=& `ЛЮБИТ СЛАДКОЕ”. 
ВРОДЕ “ЖЕНЩИНА”, “МЕСТНАЯ”, “ЛЮБИТ СЛАДКОЕ", 


ПОСКОЛЬКУ ЭТИ ДАННЫЕ ДОБЫВАЮТСЯ 
БЕЗ УЧИТЕЛЯ, ЦХ НЕ ВСЕГДА МОЖНО 
ИНТЕРПРЕТИРОВАТЬ, 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


и 


М№пользователей 


Женщины 


Любят 
сладкое 


Клатентных 
факторов 


Укт 


М видов 
продуктов 


А как сее помощью разложить матрицу? 


6.2. РАЗЛОЖЕНИЕ МАТРИЦЫ 


М видов продуктов Матрица видов продуктов МхК 


М№пользователей 


Матрица пользователей №хК 


А зачем в целом Чи Унужны? 


а а Т 
пит ПЕЙ, Ра ОУ | м 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


И что мы будем делать? 


Переобучение. Тогда используем регуляризацию. 


Ты говорил, что будешь использовать метод градиентов, но можно ли 
его использовать, если у нас два объекта оптимизации, Оиу\у: 


6.2. РАЗЛОЖЕНИЕ МАТРИЦЫ 


СУТЬ В ТОМ, 


МОЛОДЕЦ, ЧТО БОЛЬШИНСТВО 
А ТЫ СЛЬШАЛ О НЕОТРИЦАТЕЛЬНОМ ЭЛЕМЕНТОВ МАТРИЦЫ Х 


МАТРИЧНОМ РАЗЛОЖЕНИИ? АТА 


АГА, КТО СКОЛЬКО ТОВАРОВ 
КУПИЛ ИЛИ ОЦЕНИЛ КИНО 
НА СТОЛЬКО-ТО БАЛЛОВ, 


ДА, ОНО ВСТРЕЧАЛОСЬ В РАЗНЫХ 
МЕСТАХ, НО Я НЕ МОГ ПОНЯТЬ, 
ЧТО ТАКОЕ НЕОТРИЦАТЕЛЬНОЕ. 


ДОПУСТИМ, Х - КОЛИЧЕСТВО ТОВАРОВ В МАГАЗИНЕ, 1- ЭТО ВЕРОЯТНОСТЬ ТОГО, | 
Ц ПОКУПАТЕЛЬ КУПИЛ В МАГАЗИНЕ ОДИН ТОВАР, ЧТО ЭТОТ ПОКУПАТЕЛЬ: /: 
И ЭТО ОДНО ЧИСЛО ОБОЗНАНДЕТ ПОКУПАТЕЛЯ, 
КОТОРЫЙ КУПИЛ ОДИН ТОВАР. 


С „СЛАДКОЕЖКА.. "ЭКЕНЩИНА, 


„СИДИТ НА ДЦЕТЕ... 


МОЖНО ОБЪЯСНИТЬ, 
НТО ТОВАР - ЭТО СУММА ВСЕХ 
ВЫЧИСЛЕНИИ ВЕРОЯТНОСТЕЙ, СВЯЗАННЫХ 
С ЭТИМИ СКРЫТЫМИ <РАКТОРАМИ. 


г ЕСЛИ О и У МОГУТ ПРИНИМАТЬ ПРОИЗВОЛЬНЫЕ 
ны НЫ ЗНАЧЕНИЯ, ТО ДЛЯ УМЕНЬШЕНИЯ ОШИБКИ МОГУТ 


ж ж |) и р 
—_ Н ны ПОТРЕБОВАТЬСЯ КРАННИЕ ЗНАЧЕННЯ, 
„ А ТУТ ОНИ ОГРАНИЧЕНЫ 


д ВЕРОЯТНОСТЬ ДО НЕОТРИЦАТЕЛЬНЫХ. 


НЕ МОЖЕТ БЫТЬ 
ОТРИЦАТЕЛЬНОЙ! 


ЕСЛИ МЫ МХ ОГРАНИЧИЛИ ДО НЕОТРИЦАТЕЛЬНЫХ, 
ТО ЭТО ОЧЕНЬ ПОХОЖЕ НА РЕГУЛЯРИЗАЦИЮ. 
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А ПРО РАСТОР АТОМ МАСНМЕ 


Ди ТЫ СЛЫШАЛ? 
ЭТА МОДЕЛЬ ВЫЧИСЛЯЕТ ЗНАЧЕНЦЕ, 


КОТОРОЕ МОЖНО ОЦЕНИТЬ ПО ВНУТРЕННЕМУ 
ПРОИЗВЕДЕНИЮ 0 и У в КАЖДОМ ИЗМЕРЕНИИ И СУММЕ 
ь ВЕСОВ ЭЛЕМЕНТОВ ПРОИЗВОЛЬНОГО ИЗМЕРЕННЯ, 


НАПРИМЕР, МОЖНО НАСТРОИТЬ 

а оеелиеносто Хоа 
Прогнозируемая К ВЕКТОРАМ, ОБОЗНАНАЮЩИМ 

МОЖНО АОБАВИТЬ ЛЮБУЮ | величинау(купитли ПОЛЬЗОВАТЕЛЕЙ, ИНСРОРМАЦИЮ 
ИНЗРОРМАЦИЮ, пользователь / товар ] О ПОЛЕ И ВОЗРАСТЕ 

М видов продуктов Любит искуиать товары” Хорошо ли продается” 


Разре- 
женная 
матрица 


Склонности Склонности 
пользователя? товара] 


Взаимное влияние: 
внутреннее 
Постоянная произведение К-мерных 


векторов из латентных 
факторов 


Дополнительная информация 
о пользователях 


> 
[28 
с 
а 
= 
[4 
[23 
о 
а 
.2 
= 
о 
Е 


Может Быть определено 
между любыми 


элементами, включая 
Дополнительная информация  ПОТЕЕ Е 
о продуктах у 
матрица 


информацию 


УРА! СПАСИБО! 


ТЕПЕРЬ Я МОГУ 
ПРОВОДИТЬ ОБУЧЕНИЕ 
МОДЕЛИ БЕЗ УЧИТЕЛЯ, 
БЕЗ СВОЕГО УЧИТЕЛЯ, - 

БЕЗ ВДС, СЭМПАИ! 


НУ ЧТО, ХВАТИТ? 


ИЗВИНИТЕ... 
НЕУДАЧНАЯ ШУТКА 


Я ДУМАЮ, НАМ ПОРА ПЕРЕСТАТЬ 
БЫТЬ ПРОСТО УЧИТЕЛЕМ 
И УЧЕНИКОМ. 


ДАВНО Я СКАЗАЛА Я СОВЕРШЕННО ЗАБЫЛА 
ТЕБЕ, ЧТО ТЫ МНЕ ОБ ЭТОМ, НО ПОТОМ 
КАК БРАТИК! Я ВСПОМНИЛА... 
НО ТОГДА ТЫ 
ДЕЙСТВИТЕЛЬНО 
КАЗАЛСЯ ТАКИМ ЖЕ 
МИЛЫМ, КАК БРАТ, 
Н МНЕ ХОТЕЛОСЬ ЭТО 
СКАЗАТЬ. 
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НО Я ПОНЯЛА, 
ЧТО ЭТО БЫЛО НЕВЕЖЛИВО, 
ИЗВИНИ, ПОЖАЛУЙСТА, 


НИЧЕГО СТРАШНОГО! 
СЭМПАИ, ВЫ МНЕ НИЧЕГО 
ТАКОГО НЕ СДЕЛАЛИ! 


БЛИН, ОНА ВСПОМНИЛА, 
ПОЭТОМУ ПИСЬМО БЫЛО 
ТАКОЕ! 


БРАТИК... 


ВСЕ ЭТИ КАТЕГОРИИ НЕСУТ 
В СЕБЕ УНИЗИТЕЛЬНОЕ ЗНАЧЕННЕ. 


ТЕПЕРЬ Я БУДУ ОБРАЩАТЬСЯ 
К ТЕБЕ КИЁХАРА-КУН! 


иъвиНи 
ЗА “ЖЕНЩИНУ”, 
“МЕСТНУЮ, 
“ЛЮБИТ СЛАДОСТИ" 
В МОЕМ ПРИМЕРЕ. 


ДА, ЭТО ВСЕ 
ПРО МЕНЯ. 


6.2. РАЗЛОЖЕНИЕ МАТРИЦЫ 


СЕГОДНЯ ПЛАТЫ ЗА ОБУЧЕНИЕ Сиясибо 
НЕ БУДЕТ, МЫ РАЗДЕЛИМ СЧЕТ 
ПОПОЛАМ! 


КСТАТИ, СЭМПАИ, 
У ВАС ЖЕ БЫЛИ ДРУГИЕ Очки, 


2 орк 


НА САМОМ ДЕЛЕ Я НЕ НАСТОЛЬКО 
БЛИЗОРУКАЯ... КОГДА Я НАДЕВАЮ ОЧКИ, 
ТО БУДТО БЫ ПЕРЕКЛЮЧАЮСЬ НА РАБОТУ, 


\ 53 
ЭТИ МНЕ 
ПОДАДРИЛИ ДРУЗЬЯ 
= В ЧЕСТЬ НОВОЦ РАБОТЫ, 


К 


ХОРОШО, КОГДА й 
ЕСТЬ ТАКОЦ КНЕХАРА-КУН, 


ПЕРЕКЛЮЧАТЕЛЬ, = У ТЕБЯ ТОЖЕ ЕСТЬ ТАКОЙ 
ПЕРЕКЛЮЧАТЕЛЬ? 


ЕЙМ ОЧЕНЬ ИДЕТ! 


КОГДА ТЫ ХОЧЕШЬ СДЕЛАТЬ 
ЧТО-ТО РАДИ КОГО-ТО ЕЩЕ! 


ТЫ ВЕДЬ СТАРАЛСЯ НА 
УРОКАХ ПО МАШИННОМУ 
ОБУНЕНИЮ, ПОТОМУ ЧТО 

ЭТИ ПРОЕКТЫ БЫЛЧ 
НУЖН 


ПРАВДА, 
ЧТО ЛИР 


оба. 


выБерите 


ПОМНИШЬ, КАК ТЫ ОБЫЧНО НЕ ШЕВЕЛИШЬСЯ, НО ТОГДА ТЫ НАЧАЛ 

НА ЗРЕСТИВАЛЕ КУЛЬТУРЫ ДЕЛАТЬ ОБЪЯВЛЕНИЯ: “ЛАПШДА ЗА ПОЛЦЕНЫ!”", 
ТЫ С ДРУЗЬЯМИ ЖАРИЛ “ПРИБЫЛЬ БУДЕТ ПОЖЕРТВОВАНА!” 
ЯКИСОБУ? ВЫ ОШИБЛИСЬ ОБЪЯВЛЕНИЯ БЫЛИ И В СОЦСЕТЯХ, 
В ПРОПОРЦИЯХ, И ЕЕ БЫЛО ПОЭТОМУ ВЫ СМОГЛИ ВСЕ ПРОДАТЬ. 
НЕМНОГО БОЛЬШЕ, 
НЕМ НУЖНО. 
Лапша 


за полцены! 
П 


[= 


х Е | ь ` г \ | а 
' с: Вся прибыль У 
КОНЕЧНО! ) ак ДА... ПОМНЮ... 


Я ННОГАА ВОЛНУЮСЬ, МОЖЕТ 
БЫТЬ, ТЫ НЕ ХОЧЕШЬ ЧТО-ТО 
ДЕЛАТЬ ДЛЯ СЕБЯ? 


И это нягряда зи тд, 
ито я старался весь год 


НУ, ХВАТИТ, ПОЖАЛУИ... 


Я, НАВЕРНОЕ, НЕ СМОГУ 
ПРОВОДИТЬ ВАС, СЭМПАИ, 


И ЭТО, МОЖЕТ БЫТЬ, 
НЕ СОВСЕМ ТО, ЧТО НАДО, 
НО МНЕ КАЖЕТСЯ, В ЭТОМ 
И ЕСТЬ ТВОЯ СИЛЬНАЯ 
СТОРОНА, 


КАК РАЗ ЖЕ КОНЕЦ ГОДА... 
СМОТРИ, НЕ ПЕРЕРДБОТАИ! 


Я ТАК ДУМАЮ 
ИНОГДА, 


НО ЕСЛИ ЧТО-ТО СЛУЧИТСЯ, 
ПИШИ, ПУСТЬ ТЫ МНЕ БОЛЬШЕ 
И НЕ УЧЕНИК, И НУКАКОЙ ПЛАТЫ 
ЗА ОБУЧЕНИЕ ТОЖЕ НЕ НАДО! 


Ого... 
рягоценные слов 


СПАСИБО! 


ДО СВИДАНИЯ! 


В кабинете у Саяка (7) 


Математическое повторение (6) 


При правильном определении для 4-мерного вектора х по от- 
ношению кр, если 1 <р< со, 


Ах. + хи, 


то это называется Г.,-нормой х. Если р = 2, то норма Г.› обычно 
имеет смысл величины вектора. 


Да. Изменение стандарта размера также меняет эффект, который 
влияет на размер. Ридж-регрессия с нормой Г. в качестве члена 
регуляризации и лассо-регрессия с нормой [. в качестве члена 
регуляризации будут по-разному влиять на коэффициенты. 


В КАБИНЕТЕ У САЯКА (7). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (6) 


Если помнить это, то можно связать многие вещи. 


Таким образом, Г.>-норма вектора - это квадратный корень из 
суммы квадратов всех его элементов. Точно так же норма Фро- 
бениуса матрицы - это квадратный корень из суммы квадра- 
тов всех элементов матрицы. 


Нет нужды ее представлять. Надо просто понимать, что это все 
нужно только для того, чтобы минимизировать ошибку Е до 
нулевой матрицы. 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


Ты говоришь правильно, но идея разложения матрицы не 
в том, чтобы можно было восстановить предыдущую матрицу, 
а сделать приближение более низкого ранга. 


В случае если значение каждого элемента исходной матрицы 
полностью независимо от других элементов, этот метод не дает 
результата разложения, близкого к исходной матрице. 


Но в данном случае предполагается, что пользователи с похо- 
жими характеристиками демонстрируют схожее покупатель- 
ское поведение, или же пользователи, приобретающие продук- 
ты с аналогичными характеристиками, имеют сходные тенден- 
ции покупок. Говоря техническими терминами, предполагает- 
ся, что в данных, у которых много измерений, есть структуры 
с более низкими измерениями. 


Я, наверное, лучше промолчу... 


Начнем с разложения по собственным числам. Для матрицы 
Аха, т. е. для квадратной матрицы 4-порядка М, рассмотрим 
пару из действительного числа Л и 4-мерного вектора х, удов- 
летворяющих следующим условиям: 

Ах=Лх, Хх 20. 


Тогда формула преобразуется в (А - ЛТ)х = 0. 


Т- единичная матрица, если есть обратная матрица А - ЛГ, то 
х = 0, что противоречит условиям. Значит, обратной матрицы 
А -ЛГнет. В этом случае определитель равен 0, или же 


4екА - ЛЛ)х = 0. 


В КАБИНЕТЕ У САЯКА (7). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (6) 


Да. В случае квадратной матрицы 4-порядка 4еКА - ЛГ)х = 0 
представляет собой многочлен и будет иметь Я решений. Л - 
собственное число, а соответствующий вектор х называется 
собственным вектором. 


Тогда, используя собственные числа и собственные векторы, 
матрица М будет записана как произведение матриц по форму- 
лениже: 


М = Ода, „.. ЛОТ 
где (0 - вектор-строка с 4 собственными векторами, которые 


находятся рядом, а < - диагональная матрица, в которой 
упорядоченные числа расположены в диагональных элементах. 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


Конечно. Поэтому это разложение по собственным числам пре- 
вращается в сингулярное разложение. 


М - ОИ, 

Здесь М - матрица ихт, 0 - матрица ихи, У - матрица тхи, » - 
матрица ихт. Таким образом, при перемножении ИХУТ полу- 
ЧИТСЯ матрица ихт. 


У - не квадратная матрица, и диагональной матрицы из нее не 
получится. 


х- матрица с тсингулярными числами, лежащими на главной 
диагонали (г меньше т и И), а оставшиеся элементы дополня- 
ются нулями до и строк и т столбцов. 


Сингулярные числа рассчитываются по собственному значе- 
нию, и здесь мы можем думать о них как о числах, полученных 
в результате разложения. 


01 


Здесь важно знать, что сингулярные значения от 01 до д, распо- 
ложены по возрастанию. 


В КАБИНЕТЕ У САЯКА (7). МАТЕМАТИЧЕСКОЕ ПОВТОРЕНИЕ (6) 


Каждое сингулярное значение умножается на элементы Оиу, 
в результате чего получается элемент М, и, конечно, большая 
величина сингулярного значения оказывает большое влияние 
на определение значения М. Это сразу станет ясно, если пред- 
ставить, что первое сингулярное число настолько велико, что 
будто возвышается над остальными. 


Да. Можно выбрать несколько больших сингулярных значений 
и затем смотреть, как меняется значение М. 


Если сумма нескольких выбранных сингулярных значений со- 
ставляет большую часть от суммы всех сингулярных значений, 
то получится матрица, которая не сильно отличается от исход- 
ной М. 


Да. Какяи говорила, в данных, у которых много измерений, 
есть структуры с более низкими измерениями. 


ГЛАВА 6. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 


ЭПИЛОГ 


Полгода спустя... 


КУДА ЭТО СТАВИТЬ? 


СТЕСНЯЕШЬСЯ?Р 
ПРИВЫКАИ, ПРИВЫКДИ... 


СЮДА ВНИЗ, 
ПОЖАЛУНСТА, 


НУ, ТЫ ЖЕ СМОГ СОЗДАТЬ 
КОМПАНИЮ, КНЁХДРА! 


САМ УДИВЛЕН! 


Количество проектов, связанных 
с машинным обучением, увеличилось, 
поэтому Киёхара Больше не мог 
концентрироваться на работе 
3 Мы вадминистрации и создал свою 
ЭПИлОГ компанию. 


НО Я НЕ ДУМАЛ, КУДЗЁ-САН, 
ЧТО ВЫ ПОЙДЕТЕ СО МНОИ, 


Я ПОДУМАЛ, 
С КНЁХДРА СКУЧНО 
НЕ БУДЕТ. — НАДО НЕ ТОЛЬКО МЕНЯ 
БЛАГОДАРИТЬ, НО И ВСЕХ В МЭРИИ, 
ЧТО НАШЛИ ОЗРИС ПОДЕШЕВЛЕ 
и ДАЛИ СТАРУЮ МЕБЕЛЬ. 


{ СПАСИБО БОЛЬШОЕ ТЕБЕ! 


„ТАКОЕ! 
САЯКА-СЭМПАИ, 
ЧТО ВЫ ТУТ ДЕЛАЕТЕ? 


ВСЕМ 
ПРИВЕТ! 


СЭМПАИ, А ЧТО 
СЛУЧИЛОСЬ С ВАШЕЙ 
РАБОТОН? 


НАДО ЖЕР 
ЭТО ТВОЯ СЭМПАИР 


НУ... НА ВСТУПИТЕЛЬНОЙ ЦЕРЕМОНИИ 
ОКАЗАЛОСЬ, ЧТО У ПРЕЗИДЕНТА 
КОМПАНИИ КАКЧЕ-ТО СВОМ ОЖИДАНИЯ 
ОТ НИ, Я ПОДУМАЛА, ЧТО ПОЛГОДА 
ПОРАБОТАЮ И ВЕРНУСЬ ОБРАТНО, 

А КОГДА УЗНАЛА СИТУАЦИЮ 
ВНУТРИ КОМПАННИ, ПОНЯЛА, 

ЧТО ОН НА САМОМ ДЕЛЕ ТАК ДУМАЕТ, 
Ц ПОЭТОМУ УВОЛИЛАСЬ! 


НАДО ЖЕ. 


ЭПИЛОГ 


Я БЫЛА И ТЕПЕРЬ КИЁХАРА-КУН 


ТАК РАДА УСЛЬШАТЬ, ПРИМЕНЯЕТ ПОЛУЧЕННЫЕ 
НТО КИЕХАРА-КУН ОТ МЕНЯ ЗНАНИЯ 


ОБЗДАВЕЛСЯ СОБСТВЕННОЙ НА ПРАКТИКЕ, ДАР 
КОМПАННЕЙ, ЭТО ХОРОШО! 


о 


НО МЫ НЕ ШУТИМ. 


МНЕ ХОЧЕТСЯ РАБОТАТЬ В МЕСТЕ, 
ГАЕ РАБОТАЮТ ЛЮДИ, КОТОРЫЕ 
МОГУТ ПРАВИЛЬНО ПРИМЕНЯТЬ 
ПОЛУЧЕННЫЕ ОТ МЕНЯ ЗНАННЯ., 


И ДЕЛАТЬ ТО, 
ЧТО Я ХОНУ, 


ВЫ ВОЗЬМЕТЕ МЕНЯ НА РАБОТУ? 


ПРАВДА? 
ЗДОРОВО! СПАСИБО! 


ВЗАИМНО! УРА! 
С ТОБОЙ МЫ СПРАВИМСЯ СО ВСЕМ! 


ДА! КОНЕЧНО, 


ВОЗЬМЕМ! 


А Я ПРОГРАММИСТ, КУДЗЁ-САН? 
КУДЗЁ. Я О ВАС СЛЬШАЛА. 


а миано! 


ПРОСТИТЕ, НЕ У ВАС ЛИ 
НИК МАСНМЕ СЕДРММЕ? 


ЭПИЛОГ 


ВЫ ЗНАКОМЫР Я Ж ГОВОРМЦА, ЧТО У МЕНЯ 
ЕСТЬ ЗНАКОМАЯ, КОТОРАЯ 
ИГРАЕТ В ЧГРЫ, 


ДА! ПО ОДНОЙ НГРЕ! 


Я ПОБЛАГОДАРИЛ КУДЗЁ-САН БИНГО! 
ЗА ЭТУ СТАТЬЮ. Я ТАК И ПОДУМАЛ, 
НТО ЭТО ВЫ, 

Ата ИИЙИИ Ид 


С КАКИМ-ТО СПЕЦОМ 
ПО МАШИННОМУ ОБУЧЕНИЮ, 
ПОГОВОРИЛ С НИМ, Ц ОН 
ПОСОВЕТОВАЛ МНЕ ЭТУ КНИГУ, 


А КОГАД РЕЧЬ ШЛА ДА, МЫ ЗНАЛИ, 
ОБ ОБУЧЕНИИ БЕЗ УЧИТЕЛа, ЧТО ТЕБЕ БЫЛО ПЛОХО, 
ПРИШЛА СЭМПАИ, и РЕШИЛИ ПОМОЧЬ. 


НУ, Я МОГУ СПРОСИТЬ 
У ТОВАРИЩА ПО ИГРЕ, КОТОРЫЙ 
ПОМОГ МНЕ С ЖУРНАЛОМ 
ПРО МАШИННОЕ ОБУЧЕНИЕ, 


ПОСТАРАЕМСЯ 
ИМ СЛЕДОВАТЬ! 


дла НАЧАЛА 
САЕЛДЕМ ПРИЛИЧНЫЙ ОФРИС 
ЦЗ ЭТОЙ КОМНАТЫ! 


ДА! Я ПОЙДУ ПЕРЕОДЕНУСЬ 
В СПОРТИВНУЮ ОДЕЖДУ, 


ВПЕРЕД! 


ОТДОХНУ-КА 9! 
эпилог еле] 


ТАК, КИЁХАРА, КОТОРЫЙ 
НАШЕЛ РАБОТУ В КОМПАНИИ 
СВОИХ ХОРОШИХ ДРУЗЕЙ, 
СТАЛ ЗЛИТЬСЯ... 


НЕ НАДО ТУТ 
ЭТИХ РАЗГОВОРОВ! 
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